Part I: 왜·무엇이 다른가 — 연구방법론의 패러다임 시프트

Chapter 2: 4-레이어 분류 — LLM Wiki / Paper-to-Agent / Research Associate / AI Scientist

집필일: 2026-05-22 최종수정일: 2026-05-22

2.1 한 단어 안의 네 가지

2026년 4월의 한 달은 어휘를 흐트러뜨렸다. "AI Scientist," "LLM Wiki," "AI 에이전트," "research associate," "autonomous researcher," "co-scientist" — 같은 트윗 안에서도 이 단어들이 서로 바뀌어 쓰였다. Karpathy의 gist [16], Anthropic의 AAR 보고서 [5], Stanford의 Paper2Agent 논문 [27], Google의 AI Co-Scientist [9], Sakana v1 [20] — 이 다섯 개의 일차 자료가 같은 분류 아래 묶이지 않는다는 사실 자체가 분류를 정리해야 할 이유다.

본 챕터의 주장은 단순하다. "AI Scientist"라 묶여 불리는 것 안에는 분리 가능한 네 개의 계층 이 있다. 각 계층은 다른 역할을 하고, 다른 산출물을 만들고, 다른 일차 자료에 의해 명명됐다. 한 계층을 잘 갖춰 놓으면 그 위에 다음 계층을 올릴 수 있고, 한 계층을 건너뛰면 다음 계층은 늘 부서진다.

코드 이름 역할 대표 시스템 (2026-05)
L_wiki LLM Wiki 지식 컴파일러 / 외장 기억 Karpathy gist + OSS 6종 [16]
L_p2a Paper-to-Agent 논문 → 호출 가능한 도구 Stanford Paper2Agent [27]
L_assoc Agentic Research Associate 코딩·분석·문헌·보고 수행 Codex 0.128 /goal, Claude Code [5]
L_scientist AI Scientist 가설→실험→분석→리뷰 폐쇄루프 Sakana v1/v2, Co-Scientist, AAR, autoresearch [20]

이 4-레이어 frame은 일차 문헌의 모든 곳에 흩어져 있다. 어느 한 자료가 네 계층을 한꺼번에 다루지 않는다. Karpathy gist는 L_wiki만 다룬다 [16]. Stanford Paper2Agent 논문은 L_p2a만 다룬다 [27]. Agentic Researcher의 5-level autonomy taxonomy는 L_assoc 내부의 자율도 축만 다룬다 [1]. Sakana, Co-Scientist, AAR은 모두 L_scientist만 다룬다.

그러므로 본 서베이의 1차 지적 기여는 네 계층을 한 frame으로 조립 하는 일이다. 발명이 아니라 통합이다. ChatGPT seed §1의 4-row 표 [30]가 이 통합의 출발점이었고, 본 챕터는 그것을 일차 문헌과 정렬해 정밀화한다.

2.2 네 개의 정의 — 한 문단씩

L_wiki — LLM Wiki: 지식 컴파일러

LLM Wiki는 연구자의 외부 피질을 파일 위에 컴파일하는 패턴이다. 원문(raw/)은 보존하고, 에이전트가 그 위에 사람이 읽을 수 있는 마크다운 페이지 — 개념(concept), 주장(claim), 모순(contradiction), 미해결 질문(open question), 출처 링크 — 를 누적적으로 갱신한다. 출력물은 데이터베이스가 아니라 파일 계층 구조다. Karpathy의 2026-04-04 gist [16]가 이 패턴의 정전이고, 발표 24시간 안에 16M+ 뷰의 트윗 [16]과 한 주 안의 여섯 개 오픈소스 구현 — Astro-Han의 Agent-Skills 패키지, lucasastorian의 MCP 호스팅 서비스, ussumant의 "컴파일러" 프레이밍, ekadetov의 Obsidian 플러그인, OmegaWiki의 23-스킬 풀 라이프사이클 [26], Mcptube의 YouTube 변환기 — 이 layer가 단순 제안이 아니라 작동하는 패턴이라는 분산된 증거다. 핵심 차이는 RAG와의 대비에 있다. RAG는 query-time retrieval이고 [19], LLM Wiki는 ingest-time + maintenance-time synthesis다 [16]. 한쪽은 검색 하고 다른 한쪽은 쓴다. 본 서베이의 Ch4-Ch6이 이 layer만 다룬다.

L_p2a — Paper-to-Agent: 호출 가능한 능력으로의 변환

Paper-to-Agent는 논문 자체를 실행 가능한 도구로 변환하는 패턴이다. LLM Wiki가 논문을 읽고 정리하는 일이라면, Paper-to-Agent는 논문 안의 알고리즘·메트릭·데이터셋 로더·시뮬레이션·벤치마크·실험 프로토콜을 API 호출이 가능한 MCP 도구로 포장하는 일이다. 출력물은 마크다운이 아니라 실행 가능한 코드와 그 위의 API다. Stanford의 Paper2Agent 논문 (arXiv:2509.06917) [27]이 이 layer의 정전이며, 세 개의 실증 — AlphaGenome (유전체학 모델), ScanPy (단일세포 분석 파이프라인), TISSUE (공간 전사체학 도구) — 으로 "잘 정돈된 코드를 동반한 논문은 자동으로 MCP 도구로 변환할 수 있다"를 보였다 [3]. 이 layer가 중요한 이유는 합성호출 이 다른 종류의 작업이기 때문이다. LLM Wiki는 "이 논문이 무엇을 주장하는가"를 답하지만, Paper-to-Agent는 "이 논문의 방법론을 우리 데이터에 돌려봐"를 답한다. 두 작업은 다른 인터페이스를 요구한다. Ch8이 이 layer를 다룬다.

L_assoc — Agentic Research Associate: 연구 실행 하네스

Agentic Research Associate는 사람이 정의한 연구 질문 위에서 코드·분석·문서·실험 protocol을 자율적으로 실행하는 패턴이다. 출력물은 마크다운도 도구도 아닌, 실행된 작업의 흔적 — TODO.md의 갱신, report.md의 작성, results/의 누적, dry-run 로그, 실패한 실험의 사후분석 — 이다. 2026년 현재 이 layer의 substrate는 두 개의 CLI coding agent다 — Claude Code [5]와 Codex CLI [21]. Codex 0.128의 /goal 명령어는 이 layer의 representative primitive다. Tecton & Tide 팀이 보고한 6시간 자율 실행 — 그 중 5시간이 사람 부재 상태였다 — 은 [28] 이 layer가 작동한다는 가장 또렷한 field-grade 증거이고, Simon Willison의 0.128 리뷰 [32]가 그 primitive를 영어권에 정식화했다. Agentic Researcher 그룹의 5-Level autonomy taxonomy [1]가 이 layer의 분류학적 닻이고 — Ch3에서 본 서베이가 이를 6-Level로 확장한다. 본 서베이가 그 자체로 이 layer의 worked example이며, Ch11에서 상세히 다룬다.

L_scientist — AI Scientist: 폐쇄루프 자율 발견

AI Scientist는 가설 생성 → 실험 설계 → 실행 → 결과 분석 → 다음 실험 선택을 사람의 승인 게이트 안에서 닫힌 루프로 돌리는 패턴이다. 출력물은 발견 그 자체 — 새 가설, in silico 재도출된 메커니즘, wet-lab으로 확인된 후보 약물 — 이다. 2024년 8월의 Sakana v1 [20]이 이 layer의 정식화로, ML 도메인 한정이긴 했지만 "아이디어 → 코드 → 실험 → 시각화 → 논문 → 모의 리뷰"를 end-to-end로 처음 묶었다. 그 뒤로 Sakana v2 [33], Google AI Co-Scientist [9], HKUDS AI-Researcher [10], Anthropic AAR [5], Karpathy autoresearch [16], Zhang Deep Researcher Agent [34]가 같은 패턴을 다른 도메인 — alignment 연구, biomedical 가설 생성, ML 학습 최적화, 임상 의사결정 — 으로 옮긴다. Schmidgall et al.의 비판적 평가 [24]와 AAR의 Sonnet-4 전이 실패 [5]가 이 layer를 "완성된 시스템"이 아니라 "검증 인프라가 따라잡고 있는 신생 분야"로 위치시킨다. Ch7-Ch9가 이 layer만 다룬다.

2.3 네 개의 레이어 비교 — 한 표로

차원 L_wiki L_p2a L_assoc L_scientist
핵심 작업 합성 (synthesis) 변환 (conversion) 실행 (execution) 발견 (discovery)
주 산출물 마크다운 wiki vault MCP 도구 / 호출 가능한 모듈 코드·report.md·실험 로그 새 가설 · in silico 결과 · 논문
시간 단위 ingest-time + maintenance-time 논문당 한 번의 변환 분-시간 단위 task 시간-일 단위 cycle
사람의 역할 큐레이터, 검토자 도메인 전문가, 도구 사용자 PM, 코드 리뷰어 PI, 승인 게이트
정식화 시점 2026-04-04 [16] 2025-09 [27] 2026-04 [1] 2024-08 [20]
검증 인프라 부재 (Ch5 G2) Paper2Agent 3개 사례 5-level taxonomy + field reports Schmidgall critique + 워크숍 1편 + wet-lab 검증
사람-AI 인터페이스 큐레이션 + 직접 편집 API 호출 CLI + slash command 승인 게이트 + co-reasoning
비용 (대표) 운영자 시간 + 모델 API 변환당 한 번의 모델 비용 $0.50–$5 / task $0.08/cycle [34] ~ $18k/run [5]
가장 흔한 오해 "RAG의 다른 이름" "LLM Wiki의 하위 집합" "AI Scientist의 약한 버전" "거대 prompt 하나"

이 표가 본 챕터의 골격이다. 네 개의 열은 다른 일을 한다 — 합성·변환·실행·발견. 다른 산출물을 만든다. 다른 시간 단위에서 작동한다. 다른 검증 인프라를 가진다. 그리고 가장 중요한 것: 다른 종류의 오해 위에 놓여 있다. 이 마지막 행이 왜 이 분류가 필요한지를 가장 잘 보여준다.

2.4 왜 셋이 아니라 넷인가 — 기존 분류와의 대조

이 분류의 가장 비자명한 결정은 Paper-to-Agent를 독립 layer로 빼낸 것이다. 다른 가능한 분류들과 대조해 본다.

Agentpedia의 3-layer OS [2]는 같은 공간을 LLM Wiki + Agentic Researcher + AI Scientist의 세 층으로 자른다. 이 분류의 약점은 단순하다. Stanford Paper2Agent의 출간은 2025년 9월이고 [27], Agentpedia 글이 작성된 2026-04 시점에는 Paper2Agent가 이미 InfoQ [11]와 HPCwire [3]에 보도된 상태였다. 그럼에도 Paper-to-Agent를 LLM Wiki 안에 흡수시킨다 — Wiki가 논문을 "정리한 것"의 일종으로 본 것이다. 이 분류는 다음 질문에서 무너진다. 어떤 도구 에서 AlphaGenome을 호출하는가? Wiki에서? Wiki에서는 마크다운 페이지가 나오지, 호출 가능한 API가 나오지 않는다.

Umberto 3-stage democratization [30] — documentary / in silico / physical — 은 다른 축의 분류다. 성숙도 축이지 layer 축이 아니다. documentary 단계는 L_wiki + L_p2a + L_assoc를 모두 포함할 수 있고, in silico는 L_assoc + L_scientist (dry-lab)를, physical은 L_scientist (wet-lab)를 포함한다. 본 서베이는 두 축을 분리해서 본다 — Ch2의 4-레이어는 무엇을 하는가, Ch3의 6-레벨은 얼마나 자율적인가.

Claude-to-Codex Part IV [30]는 본 서베이의 직전 작업이다. Ch10에서 LLM Wiki를, Ch11에서 personal worked example을, Ch12에서 AI Scientist 사례를 다뤘지만 4-레이어 분류를 명시하지 않았다. 그 책의 핵심 frame은 "Claude Code → Codex 이주"였고, layer 분류는 그 frame에 종속적이었다. 본 서베이는 frame을 바꿨다 — 이주 이야기가 아니라 분야 자체의 지도다. 그래서 layer 분류가 명시되어야 한다.

Agentic Researcher 5-level autonomy [1]는 또 다른 축이다. autonomy 축에서 L0 (full human control)부터 L4 (high agent autonomy)까지 자른다. 이것은 우리 분류의 어디에 들어가는가? — L_assoc 안에 들어간다. Agentic Researcher의 taxonomy는 L_assoc의 내부 자율도를 세분화한 것이지, L_wiki나 L_scientist를 다루지 않는다.

세 가지 기존 시도가 모두 다른 축에서 같은 공간을 자른 결과는 명확하다. layer 축에서의 정식 분류가 비어 있다. 본 챕터가 그 빈 자리를 채운다.

Paper-to-Agent를 layer로 빼낸 또 하나의 이유는 경계 사례에서 드러난다. AlphaGenome을 MCP 도구로 포장한 결과물을 어디에 분류할 것인가? L_wiki라면 그 wiki 안에 "AlphaGenome 사용법" 페이지가 들어가는 일이지, AlphaGenome 자체가 호출 가능해지는 일이 아니다. L_scientist라면 발견 루프 안에서 AlphaGenome을 사용할 수 있어야 한다 — 그러나 발견 루프 자체는 AlphaGenome을 만드는 일이 아니다. L_assoc이라면 AlphaGenome을 분석에 쓸 수는 있지만, 도구를 만드는 작업이 곧 분석은 아니다. 이 네 답이 모두 어색하다는 사실 자체가 다섯 번째 답 — "Paper-to-Agent는 별도 layer다" — 을 강제한다 [27].

2.5 계층 사이의 데이터 흐름

네 계층이 따로 떨어져 있는 일은 거의 없다. 실전 워크플로우는 layer 사이의 흐름이다. 본 절은 그 흐름을 짚는다.

L_wiki → L_assoc: LLM Wiki는 Research Associate의 long-term memory 역할을 한다. Claude Code가 CLAUDE.md를 매 세션 시작에 읽어 들이는 것 [5], Codex가 AGENTS.md 사양을 따르는 것 [21]이 이 흐름의 protocol이다. wiki/concepts/ 페이지가 prompt context로 들어가고, agent의 작업 결과는 wiki/log.mdwiki/claims/로 되돌아 적힌다. wiki는 read-only가 아니라 agent가 함께 갱신하는 공유 작업공간 이 된다.

L_wiki → L_p2a: wiki 안에서 "이 논문은 X 알고리즘을 정의한다"는 claim 페이지가 작성된 뒤, 같은 claim이 "이 알고리즘을 호출 가능하게 만들자"는 task로 옮겨가는 흐름이다. Paper2Agent의 자동 변환 파이프라인 [27]은 이 흐름의 자동화 버전이다.

L_p2a → L_scientist: 가장 흥미로운 흐름이고, 동시에 Ch8이 G7로 명명한 경계 모호성의 진원이다. AI Scientist 시스템이 가설 검증 단계에서 "이 가설을 AlphaGenome으로 평가하자"라고 결정했을 때, 그 호출 자체가 Paper-to-Agent 출력물의 사용이다. Co-Scientist의 GPQA-diamond 평가 [9], SciAgents의 KG 기반 reasoning [8], PaperQA2의 literature synthesis [18]는 모두 논문에서 추출된 도구에 의존한다. L_scientist의 자율 루프는 L_p2a 도구의 풍부함에 비례한다.

L_assoc → L_scientist: Research Associate가 누적한 코드·분석·실패 사례가 AI Scientist의 prior가 된다. Karpathy autoresearch [16]는 nanochat repo 위에서 작동하고, repo 자체는 Karpathy가 Research Associate 모드로 작성한 것이다. AAR [5]는 9개의 Opus 4.6 인스턴스가 forum-scratch라는 공유 메모리 위에서 작동한다 — forum-scratch가 L_wiki + L_assoc의 누적 결과물이다.

L_scientist → L_wiki: 폐쇄루프의 닫힌 끝이다. AI Scientist가 도출한 새 가설·결과·실패 분석은 wiki로 되돌아가 다음 cycle의 prior가 된다. Voyager의 skill library [31], MemGPT의 hierarchical memory [22], Generative Agents의 memory stream [23]은 이 흐름의 학계 조상들이다.

흐름 인터페이스 정식화 시점
L_wiki → L_assoc CLAUDE.md / AGENTS.md 2024-12 / 2026-04 [5]
L_wiki → L_p2a Paper2Agent 자동 추출 2025-09 [27]
L_p2a → L_scientist MCP 도구 호출 2024-11 (MCP 사양)
L_assoc → L_scientist repo 공유 / forum-scratch 2026-04 [5]
L_scientist → L_wiki claim 페이지 갱신 2023 (Voyager 조상) [31]

이 흐름들이 동시에 작동할 때 본 서베이가 "research OS"라 부르는 것이 만들어진다 — 사람이 가설을 묻고, AI Scientist가 실험 후보를 만들고, Research Associate가 코드를 쓰고, Paper-to-Agent 도구가 호출되고, LLM Wiki가 결과를 누적하는 한 묶음이다. Ch12가 이 묶음을 5단계 로드맵으로 짓는 법을 다룬다.

2.6 경계는 명확하지 않다

분류는 도구이지 진실이 아니다. 본 절은 4-레이어가 깔끔하게 자르지 못하는 곳을 명시한다.

경계 1: wiki 안의 논문 페이지 vs. Paper-to-Agent. LLM Wiki 안에 작성된 한 논문의 페이지가 정말 자세하게 — 알고리즘 의사코드, 입력·출력 사양, 데이터셋 링크, 재현 환경까지 — 정리되어 있다면, 그 페이지와 Paper-to-Agent의 출력물이 무엇이 다른가? 본 서베이의 답은 호출 가능성에 있다. wiki 페이지는 사람이 읽는 것이고, Paper-to-Agent의 결과물은 프로그램이 호출하는 것이다. 그러나 그 경계는 wiki 페이지에 동봉된 코드 스니펫이 충분히 발전하면 점진적으로 흐려진다. Ch8 §8.6이 이 G7 경계 문제를 본격적으로 다룬다.

경계 2: Research Associate vs. AI Scientist. Codex /goal로 6시간 자율 실행을 돌린 결과 [28]는 L_assoc인가 L_scientist인가? 본 서베이의 답은 발견 루프의 닫힘에 있다. /goal은 사람이 정의한 task를 자율적으로 수행하는 것 — 발견 루프가 닫혀 있지 않다. 반면 Karpathy autoresearch [16]는 같은 substrate (coding agent) 위에서 작동하지만, 가설 생성 → 변형 적용 → 평가 → 다음 변형 선택의 loop가 닫혀 있다. 같은 도구 위에서 두 layer가 모두 가능하다는 것이 흥미로운 사실이다. Layer는 도구가 아니라 루프의 폐쇄 여부 가 결정한다.

경계 3: AI Scientist vs. 도메인 특화 ML 시스템. AlphaFold [13]는 L_scientist인가? AlphaGo [25]는? 본 서베이의 답은 일반화 가능한 자율 발견 루프의 존재 여부에 있다. AlphaFold는 단일 도메인에 봉인된 시스템이다 — 발견의 단계는 사람이 설계했고, AlphaFold는 그 안의 한 단계(예측)만을 수행한다. L_scientist는 발견의 단계 자체를 자율적으로 결정한다. 그러나 이 경계도 시간이 흐르며 흐려질 수 있다. King et al. (2009)의 Adam [17]은 효모 유전자 가설 생성과 wet-lab 검증을 자율적으로 수행했다 — domain-specific이지만 발견 루프가 닫혀 있었다. Adam을 어디에 분류할 것인가는 Ch7-Ch9의 열린 질문이다.

경계 4: LLM Wiki vs. 강화 RAG. Atlas [12]나 PaperQA2 [18]는 retrieval-augmented LM의 정교한 버전이다. LLM Wiki와 무엇이 다른가? 본 서베이의 답은 지식의 형식과 작가성에 있다. RAG는 chunk를 검색 하지만 합성된 결과물을 저장하지 않는다. LLM Wiki는 합성 자체가 출력물이며, 그 출력물은 사람이 읽을 수 있는 마크다운 파일로 누적된다. 이 차이는 정도가 아니라 종류의 차이이지만, Denser의 vendor counter-take [7]는 "강화 RAG"가 같은 일을 할 수 있다는 입장을 낸다. Ch4가 이 대립을 정직하게 다룬다.

본 서베이는 이 흐림을 약점으로 숨기지 않는다. 분류는 100% 깔끔하지 않다, 그러나 90% 깔끔하다, 그리고 나머지 10%의 흐림이 어디인지를 명시한다. 그것이 도구로서의 분류가 할 수 있는 최선이다.

Figure 2.3: 분류는 도구 — 네 개의 layer를 분리하고 (decomposition) 다시 조합 (composition)하여 도메인별 research workflow를 만든다 — illustration by author (gpt-image assisted)
Figure 2.3: 분류는 도구 — 네 개의 layer를 분리하고 (decomposition) 다시 조합 (composition)하여 도메인별 research workflow를 만든다 — illustration by author (gpt-image assisted)

2.7 Ch3로 — 시간선과 6-레벨 성숙도

본 챕터의 4-레이어는 공간적 분류다 — 무엇을 하는가. Ch3는 시간적·발전적 분류를 더한다 — 같은 layer 안에서도 시스템들은 자율도에 따라 6-레벨로 줄세울 수 있다. L0 (사람이 모든 step 통제) → L6 (wet-lab까지 자율). Agentic Researcher의 5-level taxonomy [1]를 받아들이되, L0 (LLM 사용 baseline) 추가, L5와 L6의 분리 (dry-lab vs. wet-lab)로 6-레벨로 확장한다.

그리고 Ch3는 2024년 8월의 Sakana v1에서 2026년 5월까지의 21개월을 시간순으로 따라가며 본 챕터의 네 개 layer가 각각 언제 어디서 정식화됐는지를 보인다. 4-layer × 6-level의 격자가 그 챕터의 출력물이다.

본 챕터 마무리. 네 개의 layer는 다음과 같다. L_wiki — 지식 합성 (Karpathy gist + 6 OSS), L_p2a — 도구로의 변환 (Stanford Paper2Agent), L_assoc — 코드·분석 실행 (Codex /goal + Claude Code), L_scientist — 폐쇄루프 발견 (Sakana → Co-Scientist → AAR → autoresearch). 이 네 개를 분리할 수 있다는 것이 본 서베이의 한 가지 기여이고, 분리한 위에서 합성이 가능하다는 것이 두 번째 기여다. Ch4-Ch6은 L_wiki만, Ch7-Ch9는 L_p2a + L_scientist를, Ch10-Ch12는 네 개의 합성과 운영을 다룬다.

Figure 2.1: 4-레이어 카드 다이어그램 — L_wiki (지식 합성) · L_p2a (도구로의 변환) · L_assoc (실행) · L_scientist (폐쇄루프 발견). 각 카드에 핵심 작업·대표 시스템·정식화 시점을 표기 — illustration by author (gpt-image assisted)
Figure 2.1: 4-레이어 카드 다이어그램 — L_wiki (지식 합성) · L_p2a (도구로의 변환) · L_assoc (실행) · L_scientist (폐쇄루프 발견). 각 카드에 핵심 작업·대표 시스템·정식화 시점을 표기 — illustration by author (gpt-image assisted)
Figure 2.2: 계층 사이의 데이터 흐름 — 다섯 화살표와 각 흐름의 프로토콜 (CLAUDE.md, AGENTS.md, MCP, forum-scratch, claim-update) — illustration by author (gpt-image assisted)
Figure 2.2: 계층 사이의 데이터 흐름 — 다섯 화살표와 각 흐름의 프로토콜 (CLAUDE.md, AGENTS.md, MCP, forum-scratch, claim-update) — illustration by author (gpt-image assisted)

참고문헌

  1. Agentic Researcher, "The Agentic Researcher: A Practical Guide to AI-Assisted Research," arXiv:2603.15914, 2026. [Agentic Researcher, 2026]
  2. Agentpedia, "Karpathy's LLM Wiki: The Complete Guide to His Idea File," Agentpedia, 2026. [Agentpedia, 2026]
  3. AIwire, "Stanford's Paper2Agent Reimagines Scientific Papers as Interactive AI Agents," HPCwire AIwire, 2025-10-10. [AIwire, 2025]
  4. Anthropic, "Automated Alignment Researchers — Using LLMs to scale scalable oversight," Anthropic Research, 2026-04-14. [Anthropic, 2026]
  5. Anthropic, "Claude Code memory + subagent documentation," Anthropic Docs, 2026. [Anthropic, 2026]
  6. Clark, Jack, "Import AI 454: Automating alignment research," Import AI, 2026-04-20. [Clark, 2026]
  7. Denser.ai, "From RAG to LLM Wiki: What Karpathy's idea means for AI knowledge bases," Denser.ai Blog, 2026. [Denser, 2026]
  8. Ghafarollahi, Alireza et al. (2024). SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning. arXiv:2409.05556. [Ghafarollahi et al., 2024]
  9. Gottweis, Juraj et al. (2025). Towards an AI co-scientist (Google AI Co-Scientist). arXiv:2502.18864. [Gottweis et al., 2025]
  10. HKUDS (2025). AI-Researcher: Autonomous Scientific Innovation. arXiv:2505.18705. [HKUDS, 2025]
  11. InfoQ, "Paper2Agent Converts Scientific Papers into Interactive AI Agents," InfoQ, 2025-10. [InfoQ, 2025]
  12. Izacard, Gautier et al. (2022). Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv:2208.03299. [Izacard et al., 2022]
  13. Jumper, John et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature 596: 583-589. [Jumper et al., 2021]
  14. Karpathy, Andrej, "LLM Wiki — A pattern for building personal knowledge bases using LLMs," GitHub Gist, 2026-04-04. [Karpathy, 2026]
  15. Karpathy, Andrej, "LLM Wiki announcement (Twitter/X thread)," Twitter/X, 2026-04-04. [Karpathy, 2026]
  16. Karpathy, Andrej, "karpathy/autoresearch — AI agents running research on single-GPU nanochat training," GitHub, 2026-03-07. [Karpathy, 2026]
  17. King, Ross D. et al. (2009). The Automation of Science. Science 324: 85-89. [King et al., 2009]
  18. Lala, J. et al. (2024). PaperQA2 — Language agents achieve superhuman synthesis of scientific knowledge. arXiv:2409.13740. [Lala et al., 2024]
  19. Lewis, Patrick et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020. [Lewis et al., 2020]
  20. Lu, Chris et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292. [Lu et al., 2024]
  21. OpenAI, "Codex /goal Command," Ralphable, 2026. [OpenAI, 2026]
  22. Packer, Charles et al. (2023). MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560. [Packer et al., 2023]
  23. Park, Joon Sung et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023. [Park et al., 2023]
  24. Schmidgall et al. (2025). Evaluating Sakana's AI Scientist for Autonomous Research. arXiv:2502.14297. [Schmidgall et al., 2025]
  25. Silver, David et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature 529: 484-489. [Silver et al., 2016]
  26. skyllwt, "OmegaWiki — Wiki-centric full-lifecycle AI research platform on Claude Code (DAIR Lab, Peking University)," GitHub, 2026-04. [skyllwt, 2026]
  27. Stanford team (2025). Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents. arXiv:2509.06917. [Stanford, 2025]
  28. Tecton & Tide, "/goal: The Six-Hour Codex Run That Survived a Five-Hour Pause," Tecton & Tide Blog, 2026-04. [Tecton & Tide, 2026]
  29. Um, Taewoong, "Democratization of research — three stages (document → in silico → physical)," terryum.ai, 2026-04-15. [Um, 2026]
  30. Um, Taewoong, "Claude Code → Codex 이관 전략," terryum.ai, 2026-04-24. [Um, 2026]
  31. Wang, Guanzhi et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. TMLR 2024. [Wang et al., 2023]
  32. Willison, Simon, "Codex CLI 0.128.0 adds /goal," Simon Willison's Blog, 2026-04-30. [Willison, 2026]
  33. Yamada, Yutaro et al. (2025). The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search. arXiv:2504.08066. [Yamada et al., 2025]
  34. Zhang, Xiangyue (2026). Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation. arXiv:2604.05854. [Zhang, 2026]