Part I: 왜·무엇이 다른가 — 연구방법론의 패러다임 시프트

Chapter 2: 4-레이어 분류 — LLM Wiki / Paper-to-Agent / Research Associate / AI Scientist

집필일: 2026-05-22 최종수정일: 2026-05-22

2.1 한 단어 안의 네 가지

2026년 4월의 한 달은 어휘를 흐트러뜨렸다. "AI Scientist," "LLM Wiki," "AI 에이전트," "research associate," "autonomous researcher," "co-scientist" — 같은 트윗 안에서도 이 단어들이 서로 바뀌어 쓰였다. Karpathy의 gist ^[16], Anthropic의 AAR 보고서 ^[5], Stanford의 Paper2Agent 논문 ^[27], Google의 AI Co-Scientist ^[9], Sakana v1 ^[20] — 이 다섯 개의 일차 자료가 같은 분류 아래 묶이지 않는다는 사실 자체가 분류를 정리해야 할 이유다.

본 챕터의 주장은 단순하다. "AI Scientist"라 묶여 불리는 것 안에는 분리 가능한 네 개의 계층 이 있다. 각 계층은 다른 역할을 하고, 다른 산출물을 만들고, 다른 일차 자료에 의해 명명됐다. 한 계층을 잘 갖춰 놓으면 그 위에 다음 계층을 올릴 수 있고, 한 계층을 건너뛰면 다음 계층은 늘 부서진다.

코드	이름	역할	대표 시스템 (2026-05)
L_wiki	LLM Wiki	지식 컴파일러 / 외장 기억	Karpathy gist + OSS 6종 ^[16]
L_p2a	Paper-to-Agent	논문 → 호출 가능한 도구	Stanford Paper2Agent ^[27]
L_assoc	Agentic Research Associate	코딩·분석·문헌·보고 수행	Codex CLI `/goal`, Claude Code ^[5]
L_scientist	AI Scientist	가설→실험→분석→리뷰 폐쇄루프	Sakana v1/v2, Co-Scientist, AAR, autoresearch ^[20]

이 4-레이어 frame은 일차 문헌의 모든 곳에 흩어져 있다. 어느 한 자료가 네 계층을 한꺼번에 다루지 않는다. Karpathy gist는 L_wiki만 다룬다 ^[16]. Stanford Paper2Agent 논문은 L_p2a만 다룬다 ^[27]. Agentic Researcher의 5-level autonomy taxonomy는 L_assoc 내부의 자율도 축만 다룬다 ^[1]. Sakana, Co-Scientist, AAR은 모두 L_scientist만 다룬다.

그러므로 본 서베이의 1차 지적 기여는 네 계층을 한 frame으로 조립 하는 일이다. 발명이 아니라 통합이다. ChatGPT seed §1의 4-row 표 ^[30]가 이 통합의 출발점이었고, 본 챕터는 그것을 일차 문헌과 정렬해 정밀화한다.

2.2 네 개의 정의 — 한 문단씩

L_wiki — LLM Wiki: 지식 컴파일러

LLM Wiki는 연구자의 외부 피질을 파일 위에 컴파일하는 패턴이다. 원문(raw/)은 보존하고, 에이전트가 그 위에 사람이 읽을 수 있는 마크다운 페이지 — 개념(concept), 주장(claim), 모순(contradiction), 미해결 질문(open question), 출처 링크 — 를 누적적으로 갱신한다. 출력물은 데이터베이스가 아니라 파일 계층 구조다. Karpathy의 2026-04-04 gist ^[16]가 이 패턴의 정전이고, 발표 24시간 안에 16M+ 뷰의 트윗 ^[16]과 한 주 안의 여섯 개 오픈소스 구현 — Astro-Han의 Agent-Skills 패키지, lucasastorian의 MCP 호스팅 서비스, ussumant의 "컴파일러" 프레이밍, ekadetov의 Obsidian 플러그인, OmegaWiki의 23-스킬 풀 라이프사이클 ^[26], Mcptube의 YouTube 변환기 — 이 layer가 단순 제안이 아니라 작동하는 패턴이라는 분산된 증거다.

핵심 차이는 RAG와의 대비에 있다. RAG도 문서를 미리 넣어두지만, 그 ingest는 주로 나중에 검색하기 위한 색인화다. 사용자가 질문하면 그때 관련 chunk를 vector DB에서 찾고, LLM이 query-time에 답을 합성한다 ^[19]. 반대로 LLM Wiki의 ingest는 원문을 읽어 concepts/, claims/, contradictions/, open_questions/ 같은 사람이 읽을 수 있는 페이지를 작성하는 일이다. 이후 새 자료가 들어오면 기존 페이지를 병합하고, 중복을 줄이고, 충돌하는 claim을 표시하고, 깨진 링크와 출처 없는 문장을 고친다. 이 반복적인 갱신이 maintenance-time synthesis다 ^[16]. 예를 들어 "Sakana AI의 AI Scientist와 Karpathy의 AutoResearch는 어떻게 이어지는가?"라는 질문에서 RAG는 매번 관련 chunk를 검색해 그 자리에서 연결 관계를 해석한다. LLM Wiki는 wiki/concepts/ai-scientist.md, wiki/comparisons/ai-scientist-vs-autoresearch.md, wiki/open_questions/evaluation-of-agentic-science.md 같은 페이지에 그 연결을 남겨두고 다음 질문에서 재사용한다. 그래서 RAG의 기본 동사는 검색 이고, LLM Wiki의 기본 동사는 쓰기 다. 본 서베이의 Ch4-Ch6이 이 layer만 다룬다.

L_p2a — Paper-to-Agent: 호출 가능한 능력으로의 변환

Paper-to-Agent는 논문 자체를 실행 가능한 도구로 변환하는 패턴이다. LLM Wiki가 논문을 읽고 정리하는 일이라면, Paper-to-Agent는 논문 안의 알고리즘·메트릭·데이터셋 로더·시뮬레이션·벤치마크·실험 프로토콜을 API 호출이 가능한 MCP 도구로 포장하는 일이다. 출력물은 마크다운이 아니라 실행 가능한 코드와 그 위의 API다. Stanford의 Paper2Agent 논문 (arXiv:2509.06917) ^[27]이 이 layer의 정전이며, 세 개의 실증 — AlphaGenome (유전체학 모델), ScanPy (단일세포 분석 파이프라인), TISSUE (공간 전사체학 도구) — 으로 "잘 정돈된 코드를 동반한 논문은 자동으로 MCP 도구로 변환할 수 있다"를 보였다 ^[3].

여기서 Papers2Code류의 "paper with code" 인프라와 구분해야 한다. Papers2Code는 50만+ 논문 구현을 발견하고 협업하는 open-source community platform으로 자신을 소개한다 ^[34]. 이런 인프라의 주 산출물은 논문과 구현 repository의 연결이다. 연구자가 실제로 쓰려면 저자나 커뮤니티가 올린 코드를 찾고, 설치하고, I/O를 이해하고, 자기 데이터에 맞게 감싸야 한다. Paper2Agent의 전진은 그 다음 단계다. 논문과 associated codebase를 분석해 MCP 서버를 만들고, 알고리즘과 dataset을 tool로 노출하고, 테스트를 반복 생성해 hardening한다. 따라서 "논문만 넣으면 항상 완전한 API가 나온다"가 아니라, 더 정확히는 논문+검증 가능한 코드가 있을 때 paper-with-code를 paper-as-tool로 끌어올린다는 주장이다. 코드가 없는 논문은 여전히 생성 코드와 notebook의 검증 비용이 남는다. 이 layer가 중요한 이유는 합성 과 호출 이 다른 종류의 작업이기 때문이다. LLM Wiki는 "이 논문이 무엇을 주장하는가"를 답하지만, Paper-to-Agent는 "이 논문의 방법론을 우리 데이터에 돌려봐"를 답한다. 두 작업은 다른 인터페이스를 요구한다. Ch8이 이 layer를 다룬다.

L_assoc — Agentic Research Associate: 연구 실행 하네스

Agentic Research Associate는 사람이 정의한 연구 목표를 받아 코드·분석·문서·실험 protocol을 대신 실행하는 연구 수행자 패턴이다. AI Scientist처럼 스스로 새 연구 의제를 닫힌 루프로 발명하는 단계는 아니다. 사람은 "이 논문군으로 관련 연구 표를 갱신해", "이 ablation을 돌리고 결과를 report.md에 정리해", "실패한 실험 로그를 읽고 다음 수정안을 제안해" 같은 범위 있는 목표를 준다. 에이전트는 repo 안에서 계획을 세우고, 파일을 고치고, 스크립트와 테스트를 실행하고, TODO.md·report.md·results/·dry-run 로그·사후분석을 남긴다. 출력물은 요약문 하나가 아니라 실제로 수행된 작업의 흔적이다.

2026년 현재 이 layer의 대표 substrate는 두 개의 terminal 기반 coding agent다 — Claude Code ^[5]와 Codex CLI ^[21]. 여기서 "Codex 0.128"은 2026-04-30에 나온 Codex CLI 0.128.0 release를 가리킨다. 이 버전에서 /goal long-horizon 명령이 주목받았다 ^[32]. /goal은 사용자가 큰 목표를 하나 주면, 에이전트가 여러 단계의 편집·실행·검증을 이어가며 상태를 보존하는 명령이다. 그래서 이 문맥에서 중요한 것은 버전 번호 자체가 아니라 /goal이 보여준 동작이다: 사람이 목표를 정의하고, 에이전트가 몇 시간 동안 연구 repo를 움직여 산출물을 만든다. Tecton & Tide 팀의 6시간 자율 실행 — 그 중 5시간이 사람 부재 상태였다 — 은 이 패턴이 실제 작업에서 작동한다는 가장 또렷한 field-grade 증거다 ^[28]. Agentic Researcher 그룹의 5-Level autonomy taxonomy ^[1]는 이 layer의 자율도 축을 설명하고, Ch3에서 본 서베이는 이를 6-Level로 확장한다. 본 서베이 자체도 이런 방식으로 문헌·초안·빌드 산출물을 누적한 worked example이며, Ch11에서 상세히 다룬다.

L_scientist — AI Scientist: 폐쇄루프 자율 발견

AI Scientist는 가설 생성 → 실험 설계 → 실행 → 결과 분석 → 다음 실험 선택을 사람의 승인 게이트 안에서 닫힌 루프로 돌리는 패턴이다. 출력물은 발견 그 자체 — 새 가설, in silico 재도출된 메커니즘, wet-lab으로 확인된 후보 약물 — 이다. 2024년 8월의 Sakana v1 ^[20]이 이 layer의 정식화로, ML 도메인 한정이긴 했지만 "아이디어 → 코드 → 실험 → 시각화 → 논문 → 모의 리뷰"를 end-to-end로 처음 묶었다. 그 뒤로 Sakana v2 ^[33], Google AI Co-Scientist ^[9], HKUDS AI-Researcher ^[10], Anthropic AAR ^[5], Karpathy autoresearch ^[16], Zhang Deep Researcher Agent ^[35]가 같은 패턴을 다른 도메인 — alignment 연구, biomedical 가설 생성, ML 학습 최적화, 임상 의사결정 — 으로 옮긴다. Schmidgall et al.의 비판적 평가 ^[24]와 AAR의 Sonnet-4 전이 실패 ^[5]가 이 layer를 "완성된 시스템"이 아니라 "검증 인프라가 따라잡고 있는 신생 분야"로 위치시킨다. Ch7-Ch9가 이 layer만 다룬다.

2.3 네 개의 레이어 비교 — 한 표로

차원	L_wiki	L_p2a	L_assoc	L_scientist
핵심 작업	합성 (synthesis)	변환 (conversion)	실행 (execution)	발견 (discovery)
주 산출물	마크다운 wiki vault	MCP 도구 / 호출 가능한 모듈	코드·report.md·실험 로그	새 가설 · in silico 결과 · 논문
시간 단위	ingest-time + maintenance-time	논문당 한 번의 변환	분-시간 단위 task	시간-일 단위 cycle
사람의 역할	큐레이터, 검토자	도메인 전문가, 도구 사용자	PM, 코드 리뷰어	PI, 승인 게이트
정식화 시점	2026-04-04 ^[16]	2025-09 ^[27]	2026-04 ^[1]	2024-08 ^[20]
검증 인프라	부재 (Ch5 G2)	Paper2Agent 3개 사례	5-level taxonomy + field reports	Schmidgall critique + 워크숍 1편 + wet-lab 검증
사람-AI 인터페이스	큐레이션 + 직접 편집	API 호출	CLI + slash command	승인 게이트 + co-reasoning
비용 (대표)	운영자 시간 + 모델 API	변환당 한 번의 모델 비용	$0.50–$5 / task	$0.08/cycle ^[35] ~ $18k/run ^[5]
가장 흔한 오해	"RAG의 다른 이름"	"LLM Wiki의 하위 집합"	"AI Scientist의 약한 버전"	"거대 prompt 하나"

이 표가 본 챕터의 골격이다. 네 개의 열은 다른 일을 한다 — 합성·변환·실행·발견. 다른 산출물을 만든다. 다른 시간 단위에서 작동한다. 다른 검증 인프라를 가진다. 그리고 가장 중요한 것: 다른 종류의 오해 위에 놓여 있다. 이 마지막 행이 왜 이 분류가 필요한지를 가장 잘 보여준다.

Figure 2.1: 4-레이어 카드 다이어그램 — L_wiki (지식 합성) · L_p2a (도구로의 변환) · L_assoc (실행) · L_scientist (폐쇄루프 발견). 각 카드에 핵심 작업·대표 시스템·정식화 시점을 표기 — illustration by author (gpt-image assisted)

2.4 왜 셋이 아니라 넷인가

이 분류에서 가장 중요한 선택은 Paper-to-Agent를 LLM Wiki 안에 넣지 않고 별도 layer로 뺀 것이다. 이유는 간단하다. LLM Wiki는 논문을 읽고 정리한다. Paper-to-Agent는 논문 안의 방법을 호출 가능한 도구로 만든다. 둘 다 논문에서 출발하지만 산출물이 다르다. 하나는 사람이 읽는 페이지이고, 다른 하나는 프로그램이 부르는 API다.

기존 분류들이 헷갈린 지점이 여기다. Agentpedia의 3-layer OS는 LLM Wiki + Agentic Researcher + AI Scientist로 공간을 자르면서 Paper-to-Agent를 wiki의 하위 작업처럼 흡수한다 ^[2]. 하지만 AlphaGenome을 MCP 도구로 감싼 결과를 생각해보면 이 답은 부족하다. wiki에는 "AlphaGenome 사용법" 페이지가 들어갈 수 있지만, AlphaGenome 자체가 호출 가능해지는 것은 아니다. 호출 가능한 도구를 만드는 작업은 요약도 아니고 실험도 아니다. 그래서 별도 layer가 필요하다 ^[27].

다른 혼동은 layer 축과 성숙도 축을 섞는 데서 온다. documentary / in silico / physical 같은 3단계 구분 ^[30]이나 Agentic Researcher의 autonomy level ^[1]은 "얼마나 자율적인가"를 묻는다. 이 장의 4-layer는 "무엇을 하는가"를 묻는다. 두 축은 함께 쓸 수 있지만, 하나가 다른 하나를 대체하지는 않는다.

2.5 계층 사이의 데이터 흐름

실전에서는 네 계층이 따로 움직이지 않는다. 보통은 LLM Wiki가 장기 기억이 되고, Research Associate가 그 기억을 읽어 코드를 쓰고 분석을 돌린다. Wiki 안의 claim이 "이 논문의 알고리즘을 호출 가능하게 만들자"는 Paper-to-Agent 작업으로 넘어가기도 한다. 그렇게 만들어진 도구는 AI Scientist가 가설을 검증할 때 호출한다.

예를 들어 한 연구자는 먼저 LLM Wiki에 논문군을 정리한다. 그다음 Codex나 Claude Code가 AGENTS.md 또는 CLAUDE.md를 읽고 관련 분석 코드를 작성한다 ^[5]. 핵심 논문 하나는 Paper2Agent로 MCP 도구가 된다 ^[27]. 마지막으로 AI Scientist loop가 "이 가설을 해당 도구로 평가하자"라고 결정한다. 결과와 실패 분석은 다시 wiki의 claim과 log로 돌아간다. 이 왕복이 누적되면 Ch12에서 말하는 research OS가 된다.

Figure 2.2: 계층 사이의 데이터 흐름 — 다섯 화살표와 각 흐름의 프로토콜 (CLAUDE.md, AGENTS.md, MCP, forum-scratch, claim-update) — illustration by author (gpt-image assisted)

2.6 경계는 명확하지 않다

분류는 도구이지 진실이 아니다. 이 4-layer도 모든 사례를 깨끗하게 자르지는 못한다. 그래도 핵심 경계는 두 질문으로 충분하다.

첫째, 읽는가, 호출하는가? 아주 자세한 wiki 페이지가 알고리즘 의사코드와 I/O까지 담고 있다면 Paper-to-Agent와 비슷해 보인다. 그러나 wiki 페이지는 사람이 읽는 산출물이고, Paper-to-Agent는 프로그램이 호출하는 산출물이다. 경계는 코드 스니펫이 많아질수록 흐려지지만, 기준은 여전히 callability다.

둘째, 사람의 목표를 수행하는가, 발견 루프를 닫는가? Codex /goal의 6시간 실행 ^[28]은 사람이 정한 일을 오래 수행한 사례다. 그래서 L_assoc다. 반면 Karpathy autoresearch ^[16]는 가설 생성 → 변형 적용 → 평가 → 다음 변형 선택이 한 루프 안에서 돌아간다. 그래서 L_scientist에 가까워진다. 같은 coding agent를 쓰더라도 layer는 도구가 아니라 루프의 구조가 결정한다.

이 정도의 흐림은 약점이라기보다 좋은 분류가 가져야 할 정직함이다. 분류는 100% 깔끔하지 않다. 하지만 어디가 흐린지 알 수 있을 만큼은 충분히 선명해야 한다. 본 서베이의 4-layer는 그 목적을 위한 지도다.

Figure 2.3: 분류는 도구 — 네 개의 layer를 분리하고 (decomposition) 다시 조합 (composition)하여 도메인별 research workflow를 만든다 — illustration by author (gpt-image assisted)

2.7 Ch3로 — 시간선과 6-레벨 성숙도

본 챕터의 4-레이어는 공간적 분류다 — 무엇을 하는가. Ch3는 시간적·발전적 분류를 더한다 — 같은 layer 안에서도 시스템들은 자율도에 따라 6-레벨로 줄세울 수 있다. L0 (사람이 모든 step 통제) → L6 (wet-lab까지 자율). Agentic Researcher의 5-level taxonomy ^[1]를 받아들이되, L0 (LLM 사용 baseline) 추가, L5와 L6의 분리 (dry-lab vs. wet-lab)로 6-레벨로 확장한다.

그리고 Ch3는 2024년 8월의 Sakana v1에서 2026년 5월까지의 21개월을 시간순으로 따라가며 본 챕터의 네 개 layer가 각각 언제 어디서 정식화됐는지를 보인다. 4-layer × 6-level의 격자가 그 챕터의 출력물이다.

본 챕터 마무리. 네 개의 layer는 다음과 같다. L_wiki — 지식 합성 (Karpathy gist + 6 OSS), L_p2a — 도구로의 변환 (Stanford Paper2Agent), L_assoc — 코드·분석 실행 (Codex /goal + Claude Code), L_scientist — 폐쇄루프 발견 (Sakana → Co-Scientist → AAR → autoresearch). 이 네 개를 분리할 수 있다는 것이 본 서베이의 한 가지 기여이고, 분리한 위에서 합성이 가능하다는 것이 두 번째 기여다. Ch4-Ch6은 L_wiki만, Ch7-Ch9는 L_p2a + L_scientist를, Ch10-Ch12는 네 개의 합성과 운영을 다룬다.

참고문헌

Agentic Researcher, "The Agentic Researcher: A Practical Guide to AI-Assisted Research," arXiv:2603.15914, 2026. [Agentic Researcher, 2026]
Agentpedia, "Karpathy's LLM Wiki: The Complete Guide to His Idea File," Agentpedia, 2026. [Agentpedia, 2026]
AIwire, "Stanford's Paper2Agent Reimagines Scientific Papers as Interactive AI Agents," HPCwire AIwire, 2025-10-10. [AIwire, 2025]
Anthropic, "Automated Alignment Researchers — Using LLMs to scale scalable oversight," Anthropic Research, 2026-04-14. [Anthropic, 2026] #28
Anthropic, "Claude Code memory + subagent documentation," Anthropic Docs, 2026. [Anthropic, 2026]
Clark, Jack, "Import AI 454: Automating alignment research," Import AI, 2026-04-20. [Clark, 2026]
Denser.ai, "From RAG to LLM Wiki: What Karpathy's idea means for AI knowledge bases," Denser.ai Blog, 2026. [Denser, 2026]
Ghafarollahi, Alireza et al. (2024). SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning. arXiv:2409.05556. [Ghafarollahi et al., 2024]
Gottweis, Juraj et al. (2025). Towards an AI co-scientist (Google AI Co-Scientist). arXiv:2502.18864. [Gottweis et al., 2025] #11
HKUDS (2025). AI-Researcher: Autonomous Scientific Innovation. arXiv:2505.18705. [HKUDS, 2025]
InfoQ, "Paper2Agent Converts Scientific Papers into Interactive AI Agents," InfoQ, 2025-10. [InfoQ, 2025]
Izacard, Gautier et al. (2022). Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv:2208.03299. [Izacard et al., 2022]
Jumper, John et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature 596: 583-589. [Jumper et al., 2021]
Karpathy, Andrej, "LLM Wiki — A pattern for building personal knowledge bases using LLMs," GitHub Gist, 2026-04-04. [Karpathy, 2026]
Karpathy, Andrej, "LLM Wiki announcement (Twitter/X thread)," Twitter/X, 2026-04-04. [Karpathy, 2026]
Karpathy, Andrej, "karpathy/autoresearch — AI agents running research on single-GPU nanochat training," GitHub, 2026-03-07. [Karpathy, 2026] #30
King, Ross D. et al. (2009). The Automation of Science. Science 324: 85-89. [King et al., 2009]
Lala, J. et al. (2024). PaperQA2 — Language agents achieve superhuman synthesis of scientific knowledge. arXiv:2409.13740. [Lala et al., 2024]
Lewis, Patrick et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020. [Lewis et al., 2020]
Lu, Chris et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292. [Lu et al., 2024]
OpenAI, "Codex /goal Command," Ralphable, 2026. [OpenAI, 2026]
Packer, Charles et al. (2023). MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560. [Packer et al., 2023]
Park, Joon Sung et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023. [Park et al., 2023]
Schmidgall et al. (2025). Evaluating Sakana's AI Scientist for Autonomous Research. arXiv:2502.14297. [Schmidgall et al., 2025]
Silver, David et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature 529: 484-489. [Silver et al., 2016]
skyllwt, "OmegaWiki — Wiki-centric full-lifecycle AI research platform on Claude Code (DAIR Lab, Peking University)," GitHub, 2026-04. [skyllwt, 2026]
Stanford team (2025). Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents. arXiv:2509.06917. [Stanford, 2025]
Tecton & Tide, "/goal: The Six-Hour Codex Run That Survived a Five-Hour Pause," Tecton & Tide Blog, 2026-04. [Tecton & Tide, 2026]
Um, Taewoong, "Democratization of research — three stages (document → in silico → physical)," terryum.ai, 2026-04-15. [Um, 2026]
Um, Taewoong, "Claude Code → Codex 이관 전략," terryum.ai, 2026-04-24. [Um, 2026]
Wang, Guanzhi et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. TMLR 2024. [Wang et al., 2023]
Willison, Simon, "Codex CLI 0.128.0 adds /goal," Simon Willison's Blog, 2026-04-30. [Willison, 2026]
Yamada, Yutaro et al. (2025). The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search. arXiv:2504.08066. [Yamada et al., 2025]
Papers2Code, "Papers2Code — AI Research to Code," Papers2Code, 2026. [Papers2Code, 2026]
Zhang, Xiangyue (2026). Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation. arXiv:2604.05854. [Zhang, 2026]