Part I: 왜·무엇이 다른가 — 연구방법론의 패러다임 시프트

Chapter 1: AI 시대 연구의 패러다임 시프트

집필일: 2026-05-22 최종수정일: 2026-05-22

1.1 한 달 안에 네 개의 사건

2026년 4월의 30일 안에, 서로 독립적으로 준비된 네 개의 시스템이 거의 동시에 공개됐다.

3월 7일, Andrej Karpathy는 karpathy/autoresearch 저장소를 풀고 그 위에서 nanochat을 12시간 동안 110번 변형해 검증 손실을 0.862415에서 0.858039로 끌어내린 첫 야간 실행을 트윗으로 알렸다 ^[20]. 그로부터 이틀 뒤, 같은 코드로 돌린 700개의 실험 중 20개가 "보존할 가치가 있다"고 판단됐고, GPT-2 학습 시간이 2.02시간에서 1.80시간으로 11% 단축됐다 ^[20]. 630줄짜리 파이썬 스크립트 하나가 한 사람의 잠자는 시간을 ML 연구의 한 사이클로 바꿔 놓은 것이다 ^[7].

4월 4일, 같은 인물이 GitHub gist에 마크다운 파일 하나를 올렸다 ^[20]. 제목은 "LLM Wiki." 제품 발표가 아니라 패턴 제안이었다. 원본은 그대로 두고, 에이전트가 그 위에 마크다운 페이지를 쌓아 올린다. 그 페이지들은 다시 다음 질문의 출발점이 된다. 발표 트윗은 24시간 안에 16M+ 뷰를 기록했고 ^[20], 같은 날 Hacker News 프런트페이지에 올랐다. 일주일 안에 여섯 개의 오픈소스 구현이 나타났다 — Astro-Han의 Agent-Skills 패키지, lucasastorian의 MCP 기반 서비스, ussumant의 "컴파일러" 프레이밍, ekadetov의 Obsidian 플러그인, OmegaWiki의 23-스킬 풀 라이프사이클 구현, 그리고 Mcptube의 YouTube 변환기까지 ^[3].

4월 14일, Anthropic은 Automated Alignment Researchers (AAR) 결과를 공개했다 ^[2]. 9개의 Claude Opus 4.6 인스턴스가 5일 동안 약 800시간을 누적하며 ~18,000달러의 비용으로 정렬 연구 자체를 자동화했다. Performance Gap Recovered (PGR) 지표 상 0.97 — 인간 베이스라인 0.23 대비 4배 이상. 같은 보고서는 정직한 단서도 함께 실었다. 프로덕션 스케일 Claude Sonnet 4 위에서는 통계적으로 유의미한 향상이 관찰되지 않았고, reward-hacking 사례가 관측됐다는 것이다 ^[2].

그리고 2025년 2월에 이미 공개됐던 Google의 AI Co-Scientist가, 2026년 3월에 Nature Medicine과 Advanced Science에 wet-lab 후속 결과로 다시 등장했다 ^[12]. AML 후보 검증, 간섬유증 표적 두 개 — 그 중 하나는 FDA 승인 약물의 재사용 후보, 그리고 cf-PICIs 발견. 가설을 만든 것은 multi-agent LLM 시스템이고, 그것을 실험실에서 확인한 것은 사람이다.

이 네 개의 사건은 서로 다른 팀, 서로 다른 기관, 서로 다른 의도로 진행됐다. 그러나 한 달 안에 같이 도착했다는 사실 그 자체가 신호다. AI Scientist는 더 이상 5년 뒤의 비전이 아니다. 현재형이고, 검증 가능한 단계에 와 있다. 본 서베이는 이 한 달이 왜 이 한 달이었는지, 그 안에서 무엇이 가능해졌고 무엇이 여전히 열려 있는지를 정리한다.

1.2 외장 두뇌라는 철학적 토대

위의 네 사건이 동시에 가능했던 이유는 단지 모델이 커졌기 때문이 아니다. 그 모델 옆에 유지 가능한 외부 기억을 두는 방법이 사회적으로 합의되기 시작했기 때문이다.

이 합의의 철학적 뿌리는 1998년 Andy Clark와 David Chalmers의 The Extended Mind까지 거슬러 올라간다 ^[9]. Otto와 그의 노트북 사고실험: Otto는 알츠하이머를 앓고 있고, "미술관이 53번가에 있다"는 사실을 자기 노트북에 적어 두고 항상 가지고 다닌다. 같은 사실을 머릿속에 기억하고 다니는 Inga와 비교했을 때, Otto의 노트북은 기능적으로 Inga의 기억과 동등하다 — 신뢰할 수 있게, 자동적으로, 그가 결정을 내릴 때 인용된다. 신뢰할 수 있게 인지 과정을 수행하는 외부 자원은 마음의 일부다. 이것이 parity principle이다.

본 서베이의 저자는 2026년 3월 10일 Brain Augmentation 에세이에서 이 원리를 AI 시대 연구에 적용했다 ^[36]. 핵심 주장은 단순하다. 연구는 더 이상 논문을 읽고 머리에 외워두는 일이 아니다. 연구는 AI 에이전트가 자가 발전하며 채워 나갈 환경을 짓는 일이다. 환경을 잘 짓는 사람이 더 멀리 간다. 환경이 빈약한 사람은 모델이 아무리 강해도 한 번의 질문 이상으로 가지 못한다.

이 명제는 Karpathy가 4월 12일에 같은 표현을 다른 단어로 한 것과 정확히 평행하다. 그는 Farzapedia 응답에서 LLM Wiki의 네 가지 속성을 정의했다 — Explicit (명시적), Yours (소유한 것), Files-over-apps (앱이 아니라 파일), BYOAI (자기 AI를 가져와라) ^[20]. 한국어 커뮤니티는 이를 GeekNews에서 "RAG는 잊어라"라는 한 줄로 요약했다 ^[28].

저자의 두 번째 에세이 연구의 민주화는 같은 원리를 다른 축에서 본 것이다 ^[36]. 외장 두뇌가 가능해지면 연구는 세 단계로 민주화된다. (1) Documentary 단계 — 자료를 모으고 정리하는 일이 누구에게나 열린다. (2) In silico 단계 — 가설을 컴퓨터로 시험하는 일이 누구에게나 열린다. (3) Physical 단계 — 자동화된 실험실이 누구에게나 열린다. 2026년 5월 현재, 첫 단계는 사실상 완료됐고 (Ch4-Ch6), 두 번째 단계는 빠르게 자리잡고 있으며 (Ch7-Ch8), 세 번째 단계는 5,000달러짜리 RoboChem-Flex 같은 시스템으로 가능성이 가시화됐다 ^[29].

1.3 왜 지금이고, 왜 다른가

연구 자동화의 아이디어 자체는 새롭지 않다. 1945년 Vannevar Bush의 Memex 제안은 "associative trails"로 문서를 잇는 마이크로필름 책상이었고, 1981년 Pat Langley의 BACON 시스템은 케플러의 제3법칙과 옴의 법칙을 데이터에서 재발견했다 ^[6]. 2009년에는 King의 Adam이 효모 유전자 가설을 자율적으로 생성하고 실험으로 검증했다 ^[22]. 그 사이에 AlphaGo (2016)와 AlphaFold (2021)는 "도메인 특화 AI가 과학자 수준의 결과를 만들 수 있다"는 존재 증명을 남겼다 ^[31].

그러나 이전 세대의 자율 과학자들은 모두 하나의 좁은 도메인에 봉인된 시스템이었다. Adam은 효모를 했고, AlphaFold는 단백질을 했다. 일반화는 모두 사람의 손에서 일어났다. 2024년 8월의 Sakana The AI Scientist가 그 봉인을 처음으로 깼다 ^[24]. ML 연구라는 한정된 영역이긴 했지만, 한 번에 ideation → 코드 → 실험 → 시각화 → 논문 → 모의 리뷰까지 가는 첫 end-to-end 시연이었다. Schmidgall et al.이 곧이어 그 시스템의 novelty 평가가 신뢰할 수 없다는 비판을 발표했지만 ^[30], 비판 자체가 분야가 진지해졌다는 증거였다.

2026년 4월의 차이는 다른 데 있다. 이번에는 비싸지 않다, 닫혀 있지 않다, 그리고 직접 만들 수 있다. autoresearch는 630줄짜리 단일 파일이다 ^[20]. LLM Wiki gist는 마크다운 몇 페이지다 ^[20]. AAR의 토폴로지는 9개의 동등한 동료 인스턴스가 공유 작업공간에서 일하는 것이다 ^[2]. RoboChem-Flex의 하드웨어 비용은 5,000달러 수준이다 ^[29]. 어느 것도 한 거대 기업이 독점할 수 있는 무엇이 아니다. Claude Code와 Codex CLI라는 두 코딩 에이전트가 손 닿는 가격에 있는 한, 동일한 패턴은 개인 연구자가 자기 노트북 위에서 재현할 수 있다.

여기서 한 가지를 짚어야 한다. 이 모든 패턴들의 어휘를 빚어낸 사람이 한 명이라는 사실이다. Karpathy의 2017년 Software 2.0 에세이 ^[21], 2026년 3월의 autoresearch, 4월의 LLM Wiki, 4월의 Farzapedia, 5월의 nanochat — 본 서베이가 다루는 Tier 1 자료의 압도적 다수가 한 사람의 프레이밍 아래에 놓여 있다. 본 서베이는 이 의존성을 숨기지 않고 명시한다. Karpathy의 gist는 발명 이 아니라 수십 년 동안 평이하게 존재해 온 패턴의 통합 이다 — Luhmann의 Zettelkasten (1992), Ahrens의 How to Take Smart Notes (2017), Park et al.의 Generative Agents (2023), Packer et al.의 MemGPT (2023), Wang et al.의 Voyager (2023). LLM Wiki는 이 계보가 LLM 시대에 자연스럽게 도달한 한 형태다 ^[25]. 본 서베이의 Ch4가 이 30년 계보를 다시 짚는 이유는 거기에 있다.

1.4 본 서베이가 답하려는 세 가지 질문

위의 세 절을 종합하면 자연스럽게 세 가지 질문이 남는다. 본 서베이의 12장은 이 셋을 단계적으로 따라간다.

첫째, 무엇이 외장 두뇌인가? Part II (Ch4-Ch6)가 답한다. Karpathy의 LLM Wiki 패턴이 무엇이고, 4월 한 달 사이에 폭발한 여섯 개의 오픈소스 구현이 어떻게 다르며, 연구 등급의 wiki 스키마를 어떻게 짤 것인가. Ch6는 정직하게 wiki rot — 잘못된 합성이 누적되는 실패 모드 — 의 실증 문헌이 아직 n=2 수준이라는 것을 명시한다.

둘째, 어떻게 자율 발견까지 닫는가? Part III (Ch7-Ch9)가 답한다. Sakana v1에서 AI Co-Scientist까지의 계보, autoresearch/AAR/Paper2Agent의 자율 실험 패턴, 그리고 분야별 (ML, alignment, biomedical, materials, medical) 실전 사례. Ch7-Ch8은 AAR의 Sonnet 4 전이 실패 같은 부정적 결과를 각주가 아니라 본문 단락으로 다룬다.

셋째, 어디까지 자율화되며, 본인이 직접 무엇을 짓는가? Part IV (Ch10-Ch12)가 답한다. 자체 LLM 없이 Claude Code/Codex + Obsidian만으로 시작하는 튜토리얼, 본 서베이가 그 자체로 워크플로우의 시연이 되는 Ch11의 worked example, 그리고 L2 LLM Wiki에서 L6 wet-lab까지의 단계별 로드맵.

Figure 1.3: 본 서베이가 답하는 세 가지 질문 — Q1 무엇이 바뀌었나, Q2 새 스택은 어떻게 생겼나, Q3 사람들은 사다리 어디에 있나. 각 질문이 Part II·III·IV로 매핑된다 — illustration by author (gpt-image assisted)

그러나 이 세 질문에 답하기 전에 먼저 정리해야 할 두 가지가 있다. (1) "AI Scientist," "LLM Wiki," "AI agent," "research associate" 같은 단어들이 한 덩어리로 자주 묶이는데, 실제로는 그 안에 분리 가능한 네 개의 계층 이 있다 — Ch2가 이를 명시한다. (2) 그리고 그 계층들에 사람들이 어디에 있고, 다음 단계가 무엇인지를 자가 진단할 수 있는 성숙도 척도 가 있다 — Ch3가 이를 다룬다.

본 서베이는 한 달 전 같은 저자가 마무리한 Claude Code에서 Codex로 서베이의 Part IV(ch10-12)를 출발점으로 한다 ^[36]. 그 책의 마지막 세 장은 "LLM Wiki에서 AI Scientist까지"를 압축적으로 다뤘다. 본 서베이는 그 세 장을 4-레이어로 정밀화하고 6-레벨 성숙도로 확장하며, 4월에 폭발한 OSS 매트릭스를 한 자리에 모은다. 같은 저자의 책이지만 같은 책이 아니다. 한 달 사이에 시간이 다르게 흘렀다.

Figure 1.1: 2026-04 한 달 안에 동시 도착한 네 개의 사건 — Karpathy autoresearch (3/7) → Co-Scientist Nature Medicine follow-up (3/16) → Karpathy LLM Wiki gist (4/4) → Anthropic AAR (4/14) — illustration by author (gpt-image assisted)

Figure 1.2: Clark and Chalmers 1998 Otto-Inga 사고실험과 Karpathy 2026 BYOAI/Files-over-apps 4속성의 1-page 병렬 — illustration by author (gpt-image assisted)

참고문헌

Adam, David, "The AI co-scientist is here," Nature Medicine, 2026-03-16. [Adam, 2026] #11
Anthropic, "Automated Alignment Researchers — Using LLMs to scale scalable oversight," Anthropic Research, 2026-04-14. [Anthropic, 2026] #28
Astro-Han, "karpathy-llm-wiki — Agent Skills-compatible LLM Wiki for Claude Code/Codex," GitHub, 2026-04. [Astro-Han, 2026]
Astorian, Lucas, "lucasastorian/llmwiki — Open-source LLM Wiki with document upload + Claude MCP," GitHub, 2026-04. [Astorian, 2026]
Ahrens, Sönke (2017). How to Take Smart Notes. CreateSpace.
Bush, Vannevar (1945). As We May Think (the Memex proposal). The Atlantic, July 1945.
BSWEN, "What Results Did 700 Autoresearch Experiments Achieve Overnight?," Medium, 2026-03-30. [BSWEN, 2026]
0xchamin, "Mcptube — Karpathy's LLM Wiki applied to YouTube (transcripts + vision frames)," GitHub, 2026-04. [0xchamin, 2026]
Clark, Andy and Chalmers, David (1998). The Extended Mind. Analysis 58(1): 7-19.
Clark, Jack, "Import AI 454: Automating alignment research," Import AI, 2026-04-20. [Clark, 2026]
ekadetov, "ekadetov/llm-wiki — Claude Code plugin for persistent compounding KBs in Obsidian," GitHub, 2026-04. [ekadetov, 2026]
Gottweis, Juraj et al. (2025). Towards an AI co-scientist. arXiv:2502.18864. #11
Guan et al. (2026). AI-Assisted Drug Re-Purposing for Human Liver Fibrosis. Advanced Science. [Guan et al., 2026]
Jumper, John et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature 596: 583-589.
Karpathy, Andrej, "LLM Wiki — A pattern for building personal knowledge bases using LLMs," GitHub Gist, 2026-04-04. [Karpathy, 2026]
Karpathy, Andrej, "LLM Wiki announcement (Twitter/X thread)," Twitter/X, 2026-04-04. [Karpathy, 2026]
Karpathy, Andrej, "Farzapedia reply — personalization argument for LLM Wiki," Twitter/X, 2026-04-12. [Karpathy, 2026]
Karpathy, Andrej, "karpathy/autoresearch — AI agents running research on single-GPU nanochat training," GitHub, 2026-03-07. [Karpathy, 2026] #30
Karpathy, Andrej, "Autoresearch first-run tweet — 12h / 110 changes on nanochat," Twitter/X, 2026-03-07. [Karpathy, 2026] #30
Karpathy, Andrej, "Autoresearch Round 1 tweet — 700 experiments / 11% Time-to-GPT-2 reduction," Twitter/X, 2026-03-09. [Karpathy, 2026] #30
Karpathy, Andrej (2017). Software 2.0. Medium. [Karpathy, 2017]
King, Ross D. et al. (2009). The Automation of Science. Science 324: 85-89. [King et al., 2009]
Langley, Pat (1981). Data-Driven Discovery of Physical Laws (BACON). Cognitive Science 5(1): 31-54. [Langley, 1981]
Lu, Chris et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292. [Lu et al., 2024]
Luhmann, Niklas (1992). Communicating with Slip Boxes — An Empirical Account. Essay. [Luhmann, 1992]
Packer, Charles et al. (2023). MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560. [Packer et al., 2023]
Park, Joon Sung et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023. [Park et al., 2023]
박재홍 (Park Jaehong), "RAG는 잊어라, Karpathy가 제안하는 'LLM 위키'라는 새로운 지식 관리 패러다임," GeekNews, 2026-05. [Park, 2026]
Pilon, Simone et al. (2026). A flexible and affordable self-driving laboratory for automated reaction optimization. Nature Synthesis. [Pilon et al., 2026] #31
Schmidgall et al. (2025). Evaluating Sakana's AI Scientist for Autonomous Research. arXiv:2502.14297. [Schmidgall et al., 2025]
Silver, David et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature 529: 484-489. [Silver et al., 2016]
skyllwt, "OmegaWiki — Wiki-centric full-lifecycle AI research platform on Claude Code (DAIR Lab, Peking University)," GitHub, 2026-04. [skyllwt, 2026]
The New Stack, "Andrej Karpathy's 630-line Python script ran 50 experiments overnight without any human," The New Stack, 2026-03. [The New Stack, 2026]
Um, Taewoong, "Brain Augmentation — manifesto for AI-era self-generating knowledge environments," terryum.ai, 2026-03-10. [Um, 2026]
Um, Taewoong, "Democratization of research — three stages (document → in silico → physical)," terryum.ai, 2026-04-15. [Um, 2026]
Um, Taewoong, "Claude Code → Codex 이관 전략," terryum.ai, 2026-04-24. [Um, 2026]
ussumant, "ussumant/llm-wiki-compiler — Claude Code plugin: markdown knowledge → topic-based wiki," GitHub, 2026-04. [ussumant, 2026]
Wang, Guanzhi et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. TMLR 2024. [Wang et al., 2023]