Part I: 왜·무엇이 다른가 — 연구방법론의 패러다임 시프트

Chapter 3: 시간선 + 6-Level 성숙도 로드맵

집필일: 2026-05-22 최종수정일: 2026-05-22

3.1 두 축 위에 같은 그림을 그린다

Ch2가 공간적 분류 — LLM Wiki / Paper-to-Agent / Agentic Research Associate / AI Scientist의 4계층 — 를 정리했다면, Ch3는 같은 그림을 두 개의 다른 축 위에 놓는다. 하나는 시간 축이고, 다른 하나는 성숙도 축이다. 시간 축은 "이 분야가 어떻게 여기까지 왔는가"를 1945년부터 2026년 5월까지의 81년 흐름으로 본다. 성숙도 축은 "지금 내가 어디에 있고, 다음 한 칸은 무엇인가"를 L0부터 L6까지의 사다리로 본다. 두 축이 만나는 지점에서 본 서베이의 핵심 주장 하나가 떨어진다. 2024년 8월 Sakana The AI Scientist v1은 발명이 아니라 통합이었다. 그 통합이 2026년 4월의 한 주에 LLM Wiki gist · AAR · Codex 0.128 트라이펙타로 폭발한 것 또한 우연이 아니다 — 81년 동안 쌓인 부품들이 같이 도착한 결과다.

본 챕터는 다음과 같이 진행된다. 3.2에서 시간선을 다섯 구간 — pre-history, agent primitives, Sakana 시대 개막, 2025년 결정화, 2026년 4월 트라이펙타 — 으로 나눠 훑는다. 시간 가중치는 분야의 실제 publication density를 따른다 — 2026년 4월 이후가 가장 깊고, 2025년 12월 이후가 중간, 2024년 8월 이후의 tail은 가장 얕다. 3.3에서 6-Level 사다리를 표로 정리하고 각 레벨에 대표 시스템·비용·exit criteria를 매칭한다. 3.4에서 본 서베이의 지적 정직성 신호 G8을 paragraph로 다룬다 — 시스템마다 다른 metric (GPQA / PGR / Elo / Time-to-GPT-2)을 같은 축으로 묶을 수 없다는 사실이 그 자체로 분야의 immaturity signal이다. 3.5에서 독자가 자기 위치를 self-assess하고 다음 한 칸을 정하는 방법을 짚는다.

Figure 3.1: 1945년 Memex부터 2026년 4월 트라이펙타까지 — 81년의 외장 인지·자율 과학자 계보 — illustration by author (gpt-image assisted)

3.2 시간선 — 81년 동안 쌓인 부품들이 4월에 동시에 도착했다

3.2.1 Pre-history (1945-2021) — 부품의 절반은 LLM 이전에 발명됐다

자율 과학자라는 아이디어는 LLM이 등장하기 80년 전부터 있었다. 1945년 Vannevar Bush의 As We May Think가 마이크로필름 책상으로 문서 사이 "associative trails"를 보존하자고 제안했다 ^[12]. Memex에서 출발해 Engelbart NLS, Nelson Xanadu, WWW, wiki, Obsidian, Karpathy LLM Wiki까지의 직계 계보가 이어진다.

1981년 Langley의 BACON 시스템이 케플러의 제3법칙·옴의 법칙·이상기체법칙을 raw 데이터에서 재발견했고 ^[33], 2009년 Schmidt & Lipson의 Eureqa가 유전 프로그래밍으로 보존 법칙을 자동 추출했다 ^[47]. 두 시스템은 LLM 이전의 "symbolic AI scientist" 계보이며, Sakana v1과 Google AI Co-Scientist가 자기 ancestor로 인용하는 출발점이다.

1998년 Clark & Chalmers의 The Extended Mind는 본 서베이의 철학적 닻이다 ^[15]. parity principle — 신뢰할 수 있게 인지 기능을 수행하는 외부 자원은 마음의 일부다 — 와 Otto의 노트북 사고실험은 Ch1에서 이미 정립됐다.

2009년 4월에 두 사건이 같은 달에 일어났다. King 팀의 Adam이 Science에 출판되어 효모 유전자 기능 가설을 자율적으로 생성·wet-lab 검증한 첫 로봇 과학자가 됐고 ^[32], 같은 4월 Eureqa가 등장했다 ^[47]. 본 서베이의 L6 (wet-lab AI Scientist)은 2009년에 이미 존재 증명을 받았다 — LLM이 새로 추가하는 것은 도메인 일반성이지 wet-lab 자율성 자체가 아니다. 2016년 AlphaGo가 정책망 + MCTS로 "decision time에 search 추가"의 양적 증거를 남겼고 ^[50], 2021년 AlphaFold 2가 CASP14 GDT_TS 92.4로 "도메인 특화 AI는 이미 과학자 수준의 산출물을 만든다"의 존재 증명을 남겼다 ^[26] — 두 결과 모두 이후 AI Scientist 논문의 motivator로 자주 인용된다.

3.2.2 Agent primitives (2020-2023) — 4년 동안 자율성의 부품이 모두 발명됐다

2020년 Lewis et al.의 RAG가 dense retrieval + 생성 모델을 end-to-end로 묶은 첫 baseline이었고 ^[35], 2022년 Izacard et al.의 Atlas가 더 강력한 retrieval-augmented 모델로 그 baseline을 강화했다 ^[25]. Karpathy의 LLM Wiki gist는 정확히 이 baseline에 대해 입장을 정립한다 — "RAG는 매번 검색하고 재해석할 뿐 지식이 축적되지 않는다" ^[30].

reasoning 축에서 네 개의 primitive가 쌓였다. 2022년 Wei et al.의 Chain-of-Thought ^[60], Yao et al.의 ReAct (ALFWorld +34%pt) ^[66], 2023년 3월 Madaan et al.의 Self-Refine과 Shinn et al.의 Reflexion이 같은 주에 self-critique 패턴을 정식화했고 (HumanEval 80%→91%) ^[38], 5월 Yao et al.의 Tree of Thoughts가 Game-of-24에서 4%→74%의 18배 향상을 보였다 ^[67]. 본 서베이의 Ch7이 정리한 대로, Sakana v1은 이 네 primitive를 ML 연구 substrate에 통합한 첫 시스템일 뿐 새 primitive를 발명한 것이 아니다.

memory 축에서 같은 시기 세 시스템이 등장했다. Park et al.의 Generative Agents (memory stream + reflection, 첫 proto "외장 cortex") ^[42], Wang et al.의 Voyager (executable skill library) ^[59], Packer et al.의 MemGPT (OS 메타포 — main + archival context) ^[41]. Karpathy의 LLM Wiki는 MemGPT의 archival store를 git-versioned Markdown vault로 일반화한 것이다.

multi-agent + tool use 축에서는 2023년 3-8월 사이 6개의 시스템이 한꺼번에 등장했다 — Toolformer ^[45], CAMEL ^[36], HuggingGPT ^[48], 그리고 8월의 AutoGen / AgentVerse / MetaGPT 클러스터 ^[14]. 30일 안에 세 그룹이 같은 "specialized role-played LLMs + message passing" 패턴을 정립했다.

AI-for-science 축에서는 2023년 4월에 두 핵심 사례가 같은 2주 안에 출판됐다. Boiko et al.의 CMU Coscientist (GPT-4 + Opentrons wet-lab으로 Suzuki/Sonogashira coupling 합성) ^[7]와 Bran et al.의 EPFL ChemCrow (GPT-4 + 18개 chemistry 도구) ^[9]. 두 논문은 King의 Adam (2009)과 2024년 이후 AI Scientist 사이 14년 공백을 메운다.

alignment 축에서는 두 substrate 논문이 나왔다 — Bowman et al.의 Measuring Progress on Scalable Oversight (2022) ^[8], Burns et al.의 Weak-to-Strong Generalization (2023, PGR metric 정의) ^[11]. 본 서베이가 Ch8에서 다루는 Anthropic AAR의 PGR 0.97 결과는 이 두 논문이 정립한 연구 프로그램의 empirical instantiation이지 standalone Anthropic-blog moment가 아니다. 같은 12월 Rein et al.의 GPQA Benchmark가 등장해 Co-Scientist의 78.4% top-1 결과의 baseline을 미리 정립했다 ^[44].

3.2.3 Sakana 시대의 개막 (2024-08) — 통합의 첫 정식화

2024년 8월 12일, Lu et al.이 The AI Scientist v1을 arXiv:2408.06292에 공개했다 ^[37]. 6단계 파이프라인 — ideation → 코드 → 실험 → 시각화 → 논문 → simulated review — 으로 ML 연구 한 편을 약 $15에 만들었다. v1의 architectural significance는 새 primitive를 만든 것이 아니라 3.2.2의 부품들을 한 번에 묶어 "연구 산출물 자체를 출력으로 하는 closed-loop"의 첫 통합 사례를 만든 것이다. 본 서베이의 tail tracking 출발점이 2024-08인 이유는 여기다 — 같은 부품들이 그 전에 모두 있었지만, 시스템 형태로 정식화된 것은 v1이 처음이었다.

9월에 두 후속이 더해졌다 — SciAgents (KG + multi-agent를 materials에 적용) ^[18], PaperQA2 (literature search에서 PhD/postdoc baseline 능가) ^[34]. PaperQA2의 동반 데모 WikiCrow가 본 서베이 LLM Wiki 패턴의 가장 직접적인 antecedent다 (Ch4에서 다시 다룬다). 2024년 Q4는 quiet period — 분야가 v1과 PaperQA2를 소화하는 시간이었다.

3.2.4 2025년 — AI Scientist 문헌의 결정화

2월 19일 Google이 AI Co-Scientist를 공개했다 (Gemini 2.0 + multi-agent + Elo 토너먼트 + wet-lab 검증) ^[19]. 26일 Schmidgall et al.이 v1의 novelty assessment 실패 — micro-batch SGD를 "novel"로 분류한 사례 — 를 명시적으로 평가하는 비판 논문을 공개했다 ^[46]. Ch7에서 강조한 대로, Schmidgall et al.은 honest negative result publishing의 모범이다.

4월 Sakana v2가 ICLR 2025 워크숍에 3편을 제출, 1편이 평균 합격 임계치를 넘었다 ^[65]. 5월 HKUDS AI-Researcher가 hierarchical decomposition + 2단계 평가로 NeurIPS 2025 채택을 받았고 ^[22], 9월 Stanford 팀이 Paper2Agent를 공개해 논문을 MCP server로 변환하는 패턴을 정식화했다 ^[53]. 본 서베이의 4-layer taxonomy 중 L2 Paper-to-Agent는 2025년 9월에 명명됐다. 12월에는 본 서베이 저자의 Conductor — LLM Orchestration Patterns publish와 함께 멀티에이전트 설계 어휘가 자리잡기 시작했다 ^[56].

3.2.5 2026년 — autoresearch big bang과 4월 트라이펙타

3월 7일 Karpathy가 karpathy/autoresearch를 풀고 첫 야간 실행 — 12시간 / 110 변형 / nanochat val loss 0.862415 → 0.858039 — 을 트윗했다 ^[27]. 630줄 Python 스크립트 하나가 한 사람의 잠자는 시간을 ML 연구 cycle로 바꿔 놓았다. 이틀 뒤 Round 1 — 2일 / 700 실험 / 20 keep-worthy / GPT-2 학습시간 2.02h → 1.80h (11% 단축) — 이 보고됐다 ^[29]. Shopify CEO Tobi Lütke가 Liquid templating 엔진을 autoresearch 93개 커밋으로 53% 가속한 사실이 동반 보도됐다 ^[55]. 3월 10일 본 서베이 저자의 Brain Augmentation manifesto가 narrative anchor를 정립했고 ^[57], 3월 31일 Towards a Medical AI Scientist가 임상 영역으로 확장했다 ^[63]. 같은 3월 Agentic Researcher 팀이 5-level autonomy taxonomy를 공개했다 ^[2] — 이것이 본 서베이 6-Level 사다리의 가장 직접적인 precedent다.

2026년 4월은 본 서베이 시간선 밀도가 가장 높은 한 달이다. 4일 Karpathy LLM Wiki gist (16M+ view) + HN 프런트페이지 진입 ^[30]. 7-10일 사이 6개 OSS 구현 — Astro-Han Agent-Skills, lucasastorian MCP, ussumant compiler, ekadetov Obsidian, OmegaWiki, Mcptube — 이 한 주에 풀렸다 ^[5]. 12일 Karpathy의 Farzapedia 후속이 "Explicit / Yours / Files-over-apps / BYOAI" 네 속성을 정의했다 ^[31].

14일 Anthropic이 AAR을 발표했다 — 9 × Claude Opus 4.6 / 5일 / ~800 누적시간 / ~$18k → PGR 0.97 vs 인간 baseline 0.23 ^[4]. 본 서베이가 Ch8 §8.4에서 paragraph-level로 다루고 §3.4에서 G8의 한 사례로 다시 짚을 정직한 단서는 같은 보고서 안에 있다 — 같은 loop를 production-scale Claude Sonnet 4에 옮겼을 때 통계적으로 유의미한 향상이 없었고 reward-hacking이 관측됐다 ^[16]. 4월 4주차에 Pilon et al.이 Nature Synthesis에 RoboChem-Flex (~$5k 모듈 self-driving lab, 6 chemistry cases) ^[43], 30일 OpenAI가 Codex CLI 0.128 — persisted /goal + worktrees + 확장 permission profiles + AGENTS.md spec update — 를 한 번에 풀었다 ^[40]. 5월 Tecton & Tide의 Six-Hour /goal Run That Survived a Five-Hour Pause field report가 0.128 persistence의 현실 검증을 제공했다 ^[54].

3.2.6 시간 가중치 — 왜 4월이 가장 깊은가

본 corpus 146편 중 2024년 6편, 2025년 11편, 2026년 80편의 분포가 있다. 사용자의 시간 가중치 명시 — 2026-04+ 가장 깊고, 2025-12+ 중간, 2024-08+ tail이 가장 얕음 — 는 분야의 실제 publication density와 정렬한다. 더 옛날 부품들 (1945 Memex, 1981 BACON, 1998 Extended Mind, 2009 Adam, 2016 AlphaGo, 2020 RAG, 2023 ReAct/Reflexion/ToT)은 foundations로 묶고 본 챕터 안에서는 lineage marker로 짧게 짚는다. 본 서베이 cutoff는 2026년 5월 22일이며, 다음 8월 기준에서 Codex Remote Control + Sakana/FutureHouse cadence가 그림을 가시적으로 바꿀 것이라 예상한다.

3.3 6-Level 성숙도 사다리 — 지금 어디에 있는가

본 서베이의 6-Level 사다리는 세 직접 precedent의 intersection이다 — Agentic Researcher 5-level autonomy taxonomy ^[2], Nature News의 journalistic level framing ^[39], 본 서베이 저자의 democratization 3-stage frame ^[57]. 어느 한 source도 6-level 사다리를 그대로 가지고 있지 않다. 사다리의 novelty claim은 따라서 limited다 — 발명이 아니라 세 source의 교차점을 한 그림으로 정리한 것이다 (본 서베이의 G6).

Figure 3.2: L0부터 L5(+L6)까지 6-Level 성숙도 사다리 — 각 단계의 대표 시스템과 한 줄 설명 — illustration by author (gpt-image assisted)

Level	정의	대표 시스템	비용·시간 (1 cycle)	Exit criteria	Prerequisites
L0	일회 요약 — 단발성 질의응답, 장기 기억 없음	Generic ChatGPT/Claude.ai	$0.01-0.50 · 분	같은 주제 5+ 자료에서 context window 부족	LLM 계정
L1	Research Assistant — 사람이 매번 context 제공	Claude/Codex 기반 paper Q&A, PaperQA2 free-tier ^[34]	$0.50-5 · 시간	같은 작업에서 같은 context를 다시 제공하는 자각	API, 워크플로 1편
L2	LLM Wiki — 에이전트가 유지하는 markdown 지식저장소	Karpathy gist + 6 OSS ^[30]	$5-50/주 · 주 단위 유지	concept/claim 페이지 30+ 누적 후 wiki를 먼저 본다	git, Obsidian/VS Code, Claude Code or Codex CLI
L3	Paper-to-Agent — 핵심 논문을 호출 가능한 MCP tool로 변환	Stanford Paper2Agent ^[53], PaperQA2 ^[34]	$50-500/논문 · 1-3일	"이 논문 방법론을 우리 데이터에"가 한 prompt에 가능	L2 wiki + MCP + stable code paper
L4	Agentic Research Associate — 6시간 자율 run	Codex 0.128 /goal ^[40], autoresearch ^[27]	$50-500/run · 6-12h	24시간 무개입 의미 산출물	L2 + L3 도구 + sandbox + AGENTS.md/CLAUDE.md
L5	Dry-lab AI Scientist — hypothesis → simulation → 분석 closed-loop	Sakana v1/v2 ^[37], AAR (dry-lab) ^[4]	$15-$18,000/run · 시간~일	시뮬레이션 영역 새 가설이 사람 검토 후 publish 품질	L4 + reviewer agent + eval framework
L6	Wet-lab/Robot AI Scientist — 가설 → 로봇 lab → 결과 closed-loop	Co-Scientist AML 후속 ^[19], Pilon RoboChem-Flex ^[43]; 역사적 anchor: King Adam 2009 ^[32]	$5k 하드웨어 + $100-10k/실험 · 일~주	wet-lab 결과가 PI 승인 아래 closed-loop	L5 + 자동화 lab + 안전 protocol + PI 게이트

3.3.1 commentary

L0~L1. 일반 ChatGPT 사용은 같은 context를 매번 다시 제공해야 한다 — 장기 기억이 없는 단계다. API를 쓰기 시작하고 자기 워크플로를 한 편 정의한 단계가 L1이다. 한계는 지식이 누적되지 않는다는 점 — 같은 100편 논문에 같은 질문을 다시 하려면 같은 비용을 다시 낸다.

L2 (LLM Wiki). 본 서베이 Ch4-Ch6 전체가 다루는 단계다. 한 번 ingest하면 다음부터 wiki 페이지를 본다. 가장 큰 함정은 wiki rot — n=1+1 longitudinal 문헌만 존재한다는 점이 본 서베이 G1이다 ^[3]. Ch6가 schema-level 대응을 prescriptive로 제안한다.

L3 (Paper-to-Agent). Stanford의 세 사례 (AlphaGenome, ScanPy, TISSUE)는 모두 bioinformatics의 well-tested code다 ^[53]. 그렇지 않은 대부분 paper에서는 LLM Wiki page + executable notebook이라는 경량 패턴이 현재 default다 (본 서베이 G7).

L4 (Agentic Research Associate). Codex 0.128 /goal과 Tecton & Tide의 6시간 run field report가 production reality를 제공한다 ^[40]. 본 서베이 G12에 따라 분명히 해야 하는 disambiguation은 다음과 같다 — autoresearch의 engineering 적용 (Shopify Liquid 53%)과 research 적용 (nanochat 11%)은 같은 코드 패턴이지만 epistemic task가 다르다. L4는 둘 다 포괄하지만 L5로의 exit은 research-flavored hypothesis generation이 검증 가능한 품질에 도달했을 때만 일어난다.

L5 (Dry-lab AI Scientist). Sakana v1/v2, AAR (dry-lab arm), Co-Scientist의 in silico 부분이 모두 이 단계다. 비용 범위가 가장 넓다 — v1 $15/논문, DRA $0.08/24h cycle, AAR $18k/run ^[4]. 본 서베이 G3에 따라 paragraph-level로 강조해야 하는 caveat이 여기 들어간다 — AAR의 PGR 0.97은 Claude Opus 4.6 위에서의 research setting 결과이고, production-scale Claude Sonnet 4에서는 통계적으로 유의미한 향상이 관측되지 않았다 ^[4]. 즉, L5의 peak result는 production transferable하지 않다 — 이 사실 자체가 분야의 정직한 신호다.

L6 (Wet-lab/Robot AI Scientist). 본 서베이 사다리 최상위이고 primary-source coverage가 가장 얇은 단계다 (본 서베이 G9). 2009년 Adam 이래 17년의 lineage가 있지만 ^[32], 2026년 현재 LLM-driven L6 사례는 RoboChem-Flex (chemistry), Co-Scientist의 AML 후속 + Guan et al.의 wet-lab replication ^[19], Brazil 2026 Nature feature가 거의 전부다 ^[10]. 본 서베이는 L6을 "case-study density로 L5와 비교할 수 없는 preview tier"로 정직하게 framing한다 — 튜토리얼 (Ch10-12)을 읽는 독자가 오늘 자기 노트북에서 시작할 수 있는 것은 L2-L4이지 L6이 아니다. 그러나 17년 lineage 자체가 L6의 정당성을 뒷받침한다 — 2009년 존재 증명에서 출발한 long program의 가장 최근 reincarnation이다.

3.3.2 사다리의 비대칭 — 두께는 maturity reality를 반영한다

본 서베이 시간선 밀도와 사다리 단계별 primary-source density는 정확히 정렬한다. L2 (LLM Wiki)는 corpus의 80% 이상이 몰려 있고, L5는 그 다음, L3과 L6은 가장 얇다. 이것은 normative claim이 아니라 descriptive claim이다 — 사다리의 두께가 얇은 단계가 덜 가치 있는 것이 아니라 덜 사례가 쌓인 것일 뿐이다. L6의 thin coverage는 본 서베이 horizon (2026-05) 이후 빠르게 두꺼워질 영역이다.

Figure 3.3: 4-layer × 6-level 격자 — Ch2의 공간적 분류와 Ch3의 발전적 분류가 만나는 지점 — illustration by author (gpt-image assisted)

3.4 G8 — Metric은 같은 축 위에서 비교할 수 없고, 그 사실이 immaturity signal이다

본 서베이가 시간선과 사다리를 다 그리고 나서도 정직하게 짚어야 하는 한 가지가 남는다. 위 시스템들의 metric은 같은 축 위에 놓을 수 없다. Sakana v1은 simulated reviewer score + 논문당 $cost, v2는 ICLR 워크숍 acceptance (n=1, qualitative reviewer comments), Co-Scientist는 GPQA Diamond 78.4% + expert preference rank + Elo + wet-lab IC50, AAR은 PGR (Performance Gap Recovered), AI-Researcher는 hierarchical eval (full-spec vs sketch), autoresearch는 Time-to-GPT-2 단축 + keep-worthy improvement count, DRA는$ /24h cycle을 자기 metric으로 보고한다.

이 metric들은 각자 합리적이지만 그 어느 것도 공유되지 않는다. GPQA는 graduate-level multiple-choice를 측정하지 hypothesis quality를 측정하지 않는다. PGR은 weak-to-strong supervision setup에 특화된 metric이다. ICLR 워크숍 acceptance는 n=1이고 venue 특수적이다. Simulated reviewer는 자기 가족의 LLM이며 — Schmidgall et al.이 정확히 보였듯이 ^[46] — 자신의 novelty assessment를 신뢰성 있게 수행하지 못한다. Elo는 self-referential이다. Time-to-GPT-2는 nanochat이라는 한 substrate에 묶인다.

본 서베이는 GPQA·PGR·Elo·Time-to-GPT-2 같이 시스템마다 다른 metric을 같은 축으로 묶지 않는다. apples-to-apples 비교가 불가능하다는 사실 자체가 분야의 immaturity signal이다. 이것이 본 서베이 G8이다. popular-press가 "Sakana vs Co-Scientist vs AAR" 같은 표현으로 시스템을 줄세우는 시도는 metric-incomparable axes를 같은 그림에 묶는 일이고, 본 서베이는 이 비교를 거부한다. Ch7에서 시스템을 genealogy로 묶지만 benchmark ranking으로는 묶지 않는 이유, 6-Level 사다리도 진화 단계를 표시하지 벤치마크 등급을 표시하지 않는 이유가 여기 있다.

같은 분야의 다른 영역에서 metric-comparability가 어떻게 등장했는지를 보면 위치가 분명해진다. NLP는 GLUE (2018) → SuperGLUE → MMLU (2020) → BIG-Bench (2022) → GPQA (2023)의 사다리로 metric을 정련했다 ^[21]. AI Scientist 가족이 같은 maturity에 도달하려면 시간이 더 필요하며, 본 서베이는 2026-05 cutoff에서 그 시간이 아직 오지 않았다는 사실을 findings의 하나로 명시한다. Schmidgall et al.이 한 시스템에 대해 보인 정직한 평가의 일반화 — "AI Scientist 가족 전체에 대한 공동 벤치마크" — 가 그 시점의 첫 step이 될 것이다.

3.5 어떻게 이 챕터를 쓸 것인가 — Self-assess → L_current+1 → Part II/III/IV

본 챕터의 마지막 작업은 독자가 자기 위치를 자가-평가하고 다음 한 칸을 정하도록 돕는 일이다. 세 가지 질문으로 시작한다.

지난 한 달 동안 같은 주제에 대해 같은 context를 LLM에 두 번 이상 다시 제공한 적이 있는가? Yes → 당신은 L0/L1이고, 첫 작업은 같은 context를 wiki에 한 번 저장하는 L2 진입이다. → Part II (Ch4-Ch6).
자기 wiki 또는 markdown vault가 있는가? LLM이 그것을 유지하는가? Yes → L2 또는 그 이상이다. 다음 칸은 특정 핵심 논문 1편을 MCP tool로 변환하는 L3 진입이다. → Part III (Ch7-Ch9).
Codex/Claude Code에서 6시간 이상 자율 run을 완수한 적이 있는가? Yes → L4 이상이다. L5 진입 — 그 run의 결과가 새 가설인가 기존 가설의 검증인가를 자기 평가하고 hypothesis-flavored 작업으로 한 칸 이동 — 이 다음 작업이다. Part IV (Ch10-Ch12)는 튜토리얼이지만 L4+ 독자에게는 환경 점검 checklist로 작동한다.

같은 질문을 기관 단위로 다시 던진다. 우리 팀은 어디에 있는가? 우리 분야의 가장 자율적인 사례는 어느 칸인가? 본 서베이 Ch9가 도메인별 답을 제공한다 — Sakana/AAR/autoresearch는 ML 자체 (L5), Co-Scientist의 AML 후속과 Guan의 간섬유증 replication은 생명과학 (L5-L6 경계), RoboChem-Flex는 chemistry (L6의 thin tier), SciAgents는 materials (L4-L5 사이).

본 챕터를 한 문장으로 요약한다. 시간선은 81년 동안 부품들이 어떻게 모였는지를 보여주고, 사다리는 지금 어디에 있고 다음 한 칸이 무엇인지를 보여준다. 두 축이 만나는 지점에서 본 서베이의 진짜 작업이 시작된다 — 자기 환경을 짓는 일. Ch4부터 그 작업의 가장 두꺼운 단계인 L2 LLM Wiki가 본격적으로 시작된다.

참고문헌

Adam, D. (2026). The AI co-scientist is here. Nature Medicine, 2026-03-16. #11
Agentic Researcher (2026). The Agentic Researcher: A Practical Guide to AI-Assisted Research. arXiv:2603.15914.
Aimaker (2026). 4-Month Obsidian + LLM Wiki Longitudinal Report. Aimaker blog.
Anthropic (2026). Automated Alignment Researchers — Using LLMs to scale scalable oversight. Anthropic Research, 2026-04-14. #28
Astorian, L. (2026). lucasastorian/llmwiki — MCP-based LLM Wiki service. GitHub.
Astro-Han (2026). Astro-Han/karpathy-llm-wiki — Agent-Skills package. GitHub.
Boiko, D. A., MacKnight, R., & Gomes, G. (2023). Emergent autonomous scientific research capabilities of large language models. arXiv:2304.05332; Nature, 2023.
Bowman, S. R. et al. (2022). Measuring Progress on Scalable Oversight for Large Language Models. arXiv:2211.03540.
Bran, A. M. et al. (2023). ChemCrow: Augmenting large-language models with chemistry tools. arXiv:2304.05376; Nature Machine Intelligence, 2024.
Brazil, R. (2026). Inside the self-driving lab revolution. Nature, 2026-03-30. #31
Burns, C. et al. (2023). Weak-to-Strong Generalization. arXiv:2312.09390; ICML 2024.
Bush, V. (1945). As We May Think. The Atlantic, 1945-07.
Chamin, 0x (2026). Mcptube — YouTube-to-LLM-Wiki converter. GitHub.
Chen, W. et al. (2023). AgentVerse: Facilitating Multi-Agent Collaboration. arXiv:2308.10848.
Clark, A., & Chalmers, D. J. (1998). The Extended Mind. Analysis, 58(1), 7-19.
Clark, J. (2026). Import AI 454 — Reading AAR carefully. Substack, 2026-04-20. #28
Ekadetov (2026). ekadetov/llm-wiki — Obsidian plugin for Claude Code. GitHub.
Ghafarollahi, A., & Buehler, M. J. (2024). SciAgents: Automating Scientific Discovery through Multi-Agent Intelligent Graph Reasoning. arXiv:2409.05556.
Gottweis, J. et al. (2025). Towards an AI co-scientist. arXiv:2502.18864. #11
Guan, J. et al. (2026). AI-Assisted Drug Re-Purposing for Human Liver Fibrosis. Advanced Science.
Hendrycks, D. et al. (2020). Measuring Massive Multitask Language Understanding. arXiv:2009.03300; ICLR 2021.
HKUDS (2025). AI-Researcher: Autonomous Scientific Innovation. arXiv:2505.18705; NeurIPS 2025.
HN (2026). LLM Wiki front-page thread (item 47640875). Hacker News, 2026-04-04.
Hong, S. et al. (2023). MetaGPT: Meta Programming for Multi-Agent Collaborative Framework. arXiv:2308.00352.
Izacard, G. et al. (2022). Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv:2208.03299; JMLR 2023.
Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596: 583-589.
Karpathy, A. (2026a). karpathy/autoresearch. GitHub. #30
Karpathy, A. (2026b). Autoresearch first overnight run tweet. Twitter/X, 2026-03-07. #30
Karpathy, A. (2026c). Autoresearch Round 1 tweet. Twitter/X, ~2026-03-09. #30
Karpathy, A. (2026d). LLM Wiki gist (karpathy/442a6bf555914893e9891c11519de94f). GitHub Gist, 2026-04-04.
Karpathy, A. (2026f). Farzapedia follow-up thread. Twitter/X, 2026-04-12.
King, R. D. et al. (2009). The Automation of Science. Science, 324: 85-89.
Langley, P. (1981). Data-Driven Discovery of Physical Laws. Cognitive Science, 5(1).
Lála, J., White, A. D. et al. (2024). PaperQA2: Faster, better, free research agents. arXiv:2409.13740.
Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401; NeurIPS 2020.
Li, G. et al. (2023). CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society. arXiv:2303.17760; NeurIPS 2023.
Lu, C. et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292.
Madaan, A. et al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651; NeurIPS 2023.
Nature News (2026). How to build an AI scientist: first peer-reviewed paper spills the secrets. Nature.
OpenAI (2026a). Codex CLI 0.128.0 changelog. GitHub.
Packer, C. et al. (2023). MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560; COLM 2024.
Park, J. S. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. arXiv:2304.03442; UIST 2023.
Pilon, T. et al. (2026). RoboChem-Flex: A ~$5,000 modular self-driving laboratory. Nature Synthesis. #31
Rein, D. et al. (2023). GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022; COLM 2024.
Schick, T. et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761; NeurIPS 2023.
Schmidgall, S. et al. (2025). Evaluating Sakana's AI Scientist for Autonomous Research. arXiv:2502.14297; SIGIR Forum.
Schmidt, M., & Lipson, H. (2009). Distilling Free-Form Natural Laws from Experimental Data. Science, 324: 81-85.
Shen, Y. et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. arXiv:2303.17580; NeurIPS 2023.
Shinn, N. et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366; NeurIPS 2023.
Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529: 484-489.
Skyllwt (2026). OmegaWiki — Full research-lifecycle LLM Wiki implementation. GitHub.
Srivastava, A. et al. (2022). Beyond the Imitation Game: BIG-Bench. arXiv:2206.04615; TMLR 2023.
Stanford Paper2Agent team (2025). Paper2Agent: Converting Papers to MCP Servers. arXiv:2509.06917.
Tecton & Tide (2026). The Six-Hour /goal Run That Survived a Five-Hour Pause. Tecton & Tide blog, 2026-05-01.
The New Stack (2026). Autoresearch — the 630-line script that runs while you sleep. The New Stack.
Um, T. (2025). Conductor — LLM Orchestration Patterns. terryum.ai post.
Um, T. (2026). Brain Augmentation / Democratization of Research / AAR + autoresearch syntheses. terryum.ai posts (2026-03-10, 2026-04-14, 2026-04-15). #28
Ussumant (2026). ussumant/llm-wiki-compiler. GitHub.
Wang, G. et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291; TMLR 2024.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903; NeurIPS 2022.
Wenhao Yu (2026). A Zettelkasten user's critical review of Karpathy LLM Wiki. Personal blog.
Willison, S. (2026). Codex /goal — the canonical English explainer. simonwillison.net, 2026-04-30.
Wu, F. et al. (2026). Towards a Medical AI Scientist. arXiv:2603.28589. #21
Wu, Q. et al. (2023). AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation. arXiv:2308.08155.
Yamada, Y. et al. (2025). The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search. arXiv:2504.08066.
Yao, S. et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629; ICLR 2023.
Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601; NeurIPS 2023.
Zhang, X. (2026). Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring. arXiv:2604.05854.