Chapter 12: 본인만의 AI scientist 환경 — 단계별 로드맵
12.1 책의 마지막 챕터 — 당신의 첫 챕터
(Chapter 10)이 Day 1이었고 (Chapter 11)이 4개월차 worked example이었다면, 이 챕터는 그 다음 12개월에 대한 로드맵이다. (Chapter 3)에서 우리는 6-Level 성숙도 모델을 제안했다 — L0 일회성 채팅, L1 AI Research Assistant, L2 LLM Wiki, L3 Paper-to-Agent, L4 Agentic Research Associate, L5 dry-lab AI Scientist, L6 wet-lab AI Scientist. 이 챕터는 그 L2-L6 각각에 얼마의 시간이 들고, 무엇을 측정하고, 무엇을 피해야 하는지를 단계별로 정리한다.
핵심 메시지는 두 가지다.
첫째, 순서를 건너뛰지 마라. 6-Level은 단순한 maturity 분류가 아니라 전제 조건의 사슬이다. L5 dry-lab AI Scientist를 하려면 L4 Research Associate가 안정적이어야 하고, L4가 안정적이려면 L3 Paper-to-Agent로 핵심 논문 3편이 호출 가능해야 하고, L3가 가능하려면 L2 LLM Wiki에 그 논문들의 claim·contradiction·open question이 이미 정리되어 있어야 한다. (Chapter 2)의 4-레이어 분류 — LLM Wiki / Paper-to-Agent / Research Associate / AI Scientist — 가 정확히 이 사슬이다.
둘째, L6는 이 책의 horizon이지 next step이 아니다 (G9). RoboChem-Flex (Chapter 9), Adam 2009, Boiko 2023의 16년 lineage가 보여주듯 wet-lab autonomy는 매우 좁은 분야(주로 화학·바이오)에서만 production-grade다. 이 챕터는 L6에 도달하기 위한 현재 가능한 신호를 제시하되, 대부분의 독자에게 L5가 the realistic ceiling이라고 솔직하게 말한다.
이 챕터는 (Chapter 9)의 도메인 케이스 스터디, (Chapter 7-8)의 AI Scientist 계보, (Chapter 6)의 wiki schema 모두를 동원해 조립한다. 본 서베이의 가장 prescriptive한 챕터다.
12.2 L2 LLM Wiki — 가장 먼저 도착해야 하는 단계
무엇을 만드는가: 주제 1개에 대해 논문 30-50편 + 특허 20편 + 내부 보고서/실패 사례 20건의 raw source 위에서, claim · contradiction · open-question · dead-end · concept map 5개 페이지군이 매주 갱신되는 vault.
왜 첫 단계인가: (Chapter 11)에서 보았듯 모든 상위 레이어가 LLM Wiki의 substrate 위에서 작동한다. AAR (Chapter 8)의 9개 Opus 인스턴스도 결국 어느 정도 정리된 prior knowledge를 시작점으로 한다. autoresearch도 어떤 metric이 의미 있는가에 대한 사람의 정리된 판단 위에서 작동한다. L2 없이 L4·L5는 무의미한 noise generator가 된다.
소요 시간 (honest range): 첫 ingest까지 5분 (Chapter 10), 작동하는 L2 vault까지 2-4주. Aimaker [12]의 4개월 보고와 terry 본인의 4개월 운영 (Chapter 11) 모두 첫 달의 30%는 lint 단계에서 재작성된다는 점에 합의한다. "한 달 안에 완성"이 아니라 한 달 안에 자기교정 사이클이 돌기 시작이 현실적 목표다.
Cost (G10): API 호출 $30-60/월, 디스크 1-2GB, 인간 시간 주당 3-5시간 (lint + review). 자체 GPU 없이 시작 가능 (Chapter 10).
측정 가능한 출구 기준: 다음 4개가 모두 "예"가 될 때 L3로 넘어가라.
- wiki/claims/ 에 50개 이상의 출처 있는 claim이 누적되었는가?
- wiki/contradictions/ 에 최소 5개 — 즉 논문 간 진짜 충돌을 발견했는가?
- wiki/open-questions/ 의 항목 중 적어도 3개에 experiment idea 후보가 붙어 있는가?
- 매주 lint 사이클이 5분 이내에 끝나는가? (이 시간이 길어지면 wiki rot 신호)
이 4개 기준은 (Chapter 6) §6.x의 evaluation metric 표를 onboarding-tier로 단순화한 것이다.
리스크:
| 리스크 | 대응 |
|---|---|
| Wiki rot — 잘못된 요약·오래된 지식 누적 | git diff review, source ID 강제 hook (Chapter 6) |
| 출처 손실 — claim과 paper 근거 분리 | claim schema 강제, (Chapter 10) §10.3의 minimum fields |
| 과도한 synthesis — agent가 논문에 없는 결론 | fact / inference / speculation 분리, 4번째 hook |
| model lock-in — 특정 모델 문체에 종속 | markdown + git 유지, 모델 교체 가능성 점검 (Chapter 10) §10.7 |
| prompt injection — raw web 문서가 agent 오염 | raw sandbox, instruction hierarchy |
12.3 L3 Paper-to-Agent — 핵심 논문 3편을 호출 가능한 도구로
무엇을 만드는가: L2 vault에서 가장 중요한 논문 3편을 골라, 그 알고리즘·metric·dataset loader·실험 protocol을 Python module 또는 MCP tool로 변환. 그 결과를 우리의 내부 데이터에 적용해 "그 논문 방법론이 우리 문제에 먹히는지" 검증.
왜 다음 단계인가: L2는 언어 layer만 다룬다. L3은 그 언어를 실행 가능한 코드로 컴파일한다. (Chapter 8)의 Stanford Paper2Agent가 AlphaGenome·ScanPy·TISSUE 세 case study로 보여준 패턴 [4]을 작은 규모로 따라 한다.
선택 기준 — 어떤 3편을 고르나?:
- 코드가 공개되어 있고, GitHub에서 적극 maintain된다 (G7의 mature-code branch)
- 명확한 metric을 정의하고 평가한다 (논문에 수치가 있다)
- 우리 도메인과 겹치되 완벽히 같지는 않다 (transfer가 의미 있도록)
이 3편을 Paper2Agent로 변환할 때의 흐름 [4]:
1. /paper-search next로 후보 추천
2. raw/papers/에 PDF 저장 + /paper로 wiki page 생성
3. GitHub repo clone → tests/ 폴더 검토
4. claude/codex에 "이 repo를 MCP server로 wrap해줘"
5. mcp.json에 등록, claude/codex에서 호출 테스트
6. 우리 내부 dataset으로 시범 run
7. 결과를 wiki/claims/ 에 "내부 검증" claim으로 기록
소요 시간: 한 편당 1-2주. 3편이면 6-8주. 대부분의 시간은 4단계 "wrap해줘"가 아니라 6단계 "내부 데이터에 적용"이다 — internal data preprocessing, evaluation metric alignment 등.
Cost: API 호출 추가 $40-80/월 (코드 생성·테스트 반복), GPU가 필요하다면 시간당 $1-3 클라우드 GPU (논문이 GPU 추론을 요구하는 경우). 핵심은 L2 단계의 인프라 위에 추가되는 비용이다 — 새로 깔 것이 거의 없다.
대안적 경량 패턴 (G7 immature-code branch): 논문 코드가 깨끗하지 않거나 그 자체가 prototype이라면, Paper-to-Agent로의 완전 변환 대신 LLM Wiki page-of-the-paper + executable notebook만으로도 충분하다. (Chapter 8)이 정확히 이 트레이드오프를 다룬다 — Paper-to-Agent는 mature code branch에서만 ROI가 나온다.
측정 가능한 출구 기준:
- 3편의 핵심 논문 모두가 우리의 내부 데이터에 적용 가능한가? (적용 결과가 "n/a" 또는 negative라도 무방 — 그 자체가 데이터)
- 적용 결과가 wiki/claims/ 에 우리의 새 claim으로 기록되었는가?
- mcp.json에서 3개 paper-agent 호출이 fail-safe하게 작동하는가? (data boundary hook이 살아 있는가)
12.4 L4 Codex/Claude Code 연구 repo — Research Associate
무엇을 만드는가: AGENTS.md + CLAUDE.md + TODO.md + report.md + experiment-log.md를 가진 연구 repo. Claude Code 또는 Codex가 literature·code·analysis·report 4축을 매주 갱신. 사람은 방향·승인·해석·high-risk decision만 담당.
L3와의 차이: L3는 논문 → 도구 변환이 핵심이었다. L4는 연구 자체가 agent loop의 산출물이다. L3 agent들이 모여서 하나의 일관된 연구 workflow를 만든다.
구조:
research-repo/
├── AGENTS.md / CLAUDE.md # L4 instruction
├── TODO.md # 미완료 작업
├── report.md # 최신 결과 요약
├── experiment-log.md # 모든 실험 기록
├── literature/ # L2 LLM Wiki에서 import
├── code/ # 분석·실험 코드
├── notebooks/ # 탐색 노트북
├── data/ # internal data (data boundary hook 적용)
├── results/ # 실험 출력
└── review/ # 인간 review 코멘트
이것은 (Chapter 11)에서 terry가 운영하는 vault의 연구-repo 변형이다. 핵심 차이는 data/와 experiment-log.md 두 폴더의 신중함 — 여기부터 내부 데이터 유출과 재현성 누락이 진짜 리스크가 된다.
소요 시간: 3-6개월. 처음 한 달은 hook과 instruction 정착, 두 번째 달은 첫 실험 cycle, 그 다음 부터는 매주 cycle 안정화.
Cost: API $100-200/월, 클라우드 GPU $200-400/월 (필요 시), 인간 시간 주당 10-15시간 (review + direction). 여전히 자체 GPU 클러스터 없이 가능.
Hook 7가지의 풀버전 활성화: (Chapter 10) §10.8에서 우리는 hook 1-2번부터 시작하라고 권했다. L4에서는 7개 모두가 작동해야 한다. 특히 4번 (data boundary) 과 6번 (report sync)이 critical이다.
G11 human-in-the-loop 분리 — L4는 세 모드를 모두 사용한다.
- Approval-gate: experiment 코드 실행 전 사람이 승인 (4번 hook)
- Co-reasoning: 새 가설 후보 평가 시 사람과 agent가 같은 wiki page에서 토론
- Last-mile correction: 매주 review에서 사람이 agent 산출물 정정
L3까지는 last-mile correction 중심이지만, L4부터는 approval-gate와 co-reasoning이 더 큰 비중을 차지한다.
측정 가능한 출구 기준:
- 매주 적어도 하나의 실험 cycle이 완전히 돌고 그 결과가 report.md에 기록되는가?
- experiment-log.md 에서 무작위로 5개를 골라 재현할 수 있는가?
- data boundary hook이 실제로 차단한 case가 있는가? (없다면 hook 자체가 죽었을 가능성)
- 4-week rolling intervention rate (사람이 agent를 정정한 빈도)가 감소 추세인가? (감소하지 않으면 instruction 재작성 필요)
12.5 L5 dry-lab AI Scientist — DOE, BO, Simulation
무엇을 만드는가: agent가 가설을 만들고, DOE 또는 Bayesian Optimization으로 실험을 설계하고, simulation 또는 computational experiment를 수행하고, 결과를 분석해 다음 실험을 선택하는 polished closed loop. 사람은 objective·search space·constraint·승인만 정의.
production-grade 사례 — 무엇이 가능한가:
- autoresearch on nanochat [3]: 700 실험 / 2일 / 11% Time-to-GPT-2 단축. (Chapter 8) §8.x의 load-bearing 사례.
- AAR Opus 4.6 ×9 [1]: PGR 0.97 vs 인간 0.23. 그러나 Sonnet 4 scale에서는 통계적으로 무의미했다 — G3 caveat (Chapter 8). 즉 L5는 특정 model scale에서만 폐쇄루프가 닫힌다.
- AI Co-Scientist on AML [6]: drug repurposing 후보를 in vitro에서 검증. single domain (biomedical hypothesis generation).
- Deep Researcher Agent [21]: $0.08/24h zero-cost monitoring으로 500+ cycle. (Chapter 8) §8.x의 cost engineering exemplar.
L4와의 본질적 차이: L4까지는 사람이 다음 실험을 선택했다. L5에서는 agent가 다음 실험을 제안하고 사람은 승인만. 이것은 (Chapter 7-8)에서 다룬 AI Scientist 계보의 핵심 변화다 — Sakana v1의 end-to-end closed loop에서 AAR의 9-instance peer setup까지.
소요 시간: L4부터 12-18개월. 첫 6개월은 DOE 또는 BO 인프라 정착, 다음 6개월은 첫 closed loop 시도, 그 후 한 도메인에서 안정화. 대부분의 1인 연구자는 여기서 멈춘다 — 그것이 문제가 아니다. L5는 production R&D의 ceiling이고, 1인 연구자의 ceiling은 보통 L4다.
Cost (G10): AAR-grade 실험은 $5k-20k/run이 typical [1]. Deep Researcher Agent의 zero-cost monitoring 패턴 [21]을 따라가면 $50-200/run으로 압축 가능. 핵심은 Tobi Lütke의 Shopify 53% 같은 production engineering 사례에서 cost가 outcome value를 정당화한다는 점이다 [13].
G12 — research vs engineering 분리: (Chapter 8)에서 다룬 두 분기. L5는 engineering branch (production 코드 최적화)는 비교적 mature하고, research branch (new hypothesis generation)는 여전히 contested. Sakana의 ICLR workshop submission이 그 contested branch의 frontier고, Schmidgall et al. [schmidgall2025aiscientisteval]의 novelty assessment critique이 그 frontier의 limit이다.
리스크:
| 리스크 | 대응 |
|---|---|
| 가짜 novelty — 이미 알려진 아이디어를 새것처럼 제안 | literature agent + reviewer agent + patent search (G14 negative-result loop) |
| 실험 설계 오류 — 통계적으로 무의미한 DOE | statistician subagent + human review |
| 재현성 부족 — 코드·데이터·환경 기록 누락 | container, seed, log 강제 hook |
| reward hacking — agent가 metric을 game | AAR Sonnet 4 사례 [1]를 반복하지 않으려면 hold-out metric 별도 운영 |
| 내부 데이터 유출 — agent가 민감 데이터 외부 전송 | local model option, data boundary hook, redaction |
측정 가능한 출구 기준:
- 한 가설 cycle (가설 → 실험 → 분석 → 다음 가설)이 사람의 개입 없이 한 번이라도 닫혔는가?
- 그 cycle의 결과가 외부 사람에게 검토 받을 수 있는 form으로 정리되었는가? (즉, papers/ 또는 surveys/ 에 publishable)
- PGR 또는 도메인-적합 metric이 random baseline 대비 통계적으로 의미 있게 개선되는가?
12.6 L6 wet-lab — bounded autonomy
무엇을 만드는가: agent가 물리 실험 protocol을 생성하고, robot/lab automation이 그 protocol을 승인 받은 후에만 실행. QC·sensor data가 자동으로 wiki에 되돌아옴.
왜 horizon인가 (G9): (Chapter 9)에서 다룬 wet-lab L6 primary source 6편 — RoboChem-Flex 3종 + Brazil Nature feature + Guan replication + Boiko 2023 — 이 전부다. 그리고 모두 화학·바이오 단일 도메인이다. 다른 도메인(재료, 의료, 로보틱스)은 L6 사례가 아직 거의 없다. King et al. 2009 Adam의 17년 lineage가 입증하듯 L6는 오랜 시간이 필요한 단계다.
현재 production-grade인 좁은 분야:
- 유기 합성 자동화: RoboChem-Flex [9]가 보여주듯 ~$5k 규모의 모듈러 self-driving lab이 가능. 6 case studies (광촉매, 생촉매, 비대칭 촉매 등).
- drug repurposing 검증: AI Co-Scientist의 AML follow-up [19], 간섬유증 replication.
대부분의 독자에게: L6는 별도 인프라 투자가 필요하다. 화학·바이오 실험실이 없다면 접근 불가. 이것을 현재 가능한 다음 단계로 제시하는 것은 dishonest다. (Chapter 9)와 (Chapter 12)는 그 점을 명시한다 — L6 coverage는 landscape with strong pointers지 case-study density가 아니다.
그럼에도 무엇을 할 수 있는가: L5에서 physical surrogate로 충분한 작업이 있다. 예: 분석화학에서 LC-MS 데이터 분석을 L5로, 실제 합성은 사람이; 의료에서 chart review를 L5로, 환자 접촉은 사람이. (Chapter 9)의 medical AI Scientist [8]가 이 패턴 — 임상 판단은 사람, 문서화는 agent.
리스크 (도메인 critical):
| 리스크 | 대응 |
|---|---|
| 장비 안전 — 위험한 command 실행 | Robot safety hook (5번), interlock, SOP check, 사람 in-person 승인 |
| 규제 — 화학물질, 생물 샘플 폐기 | 별도 안전 체계, 환경 영향 평가 |
| 데이터 편향 — AI-driven lab이 기존 공간 편향 강화 [22] | 매주 sampling diversity audit |
| 재현성 — robot calibration drift | 매일 calibration log, baseline reagent control |
12.7 평가 지표 — 전 단계 공통
(Chapter 6) §6.x와 ChatGPT seed §11의 evaluation metric 표를 L2-L6 전 단계에 통일 적용한다.
| 지표 | 정의 | L2 (LLM Wiki) | L3 (P2A) | L4 (RA) | L5 (dry-lab) | L6 (wet-lab) |
|---|---|---|---|---|---|---|
| Literature coverage | 핵심 자료 중 wiki 반영 비율 | ≥ 70% | ≥ 80% | ≥ 90% | ≥ 90% | ≥ 90% |
| Claim provenance | source ID 있는 claim 비율 | ≥ 95% | ≥ 95% | ≥ 98% | ≥ 99% | ≥ 99% |
| Contradiction discovery | agent 발견 모순 수 / 월 | ≥ 5 | ≥ 5 | ≥ 10 | ≥ 10 | ≥ 5 |
| Hypothesis quality | 전문가 평가 (novelty + feasibility + evidence) | n/a | n/a | ≥ 3/5 | ≥ 4/5 | ≥ 4/5 |
| Experiment cycle time | 가설 → 분석까지 평균 | n/a | days | days | hours | days-weeks |
| Reproducibility | 동일 repo에서 결과 재현 | n/a | high | required | required | required |
| Human intervention rate | agent 작업 중 사람 개입 횟수 / week | high (lint review) | medium | medium → low | low | medium (safety) |
| Negative result capture | 실패 실험이 wiki에 축적되는 비율 | ≥ 50% | ≥ 70% | ≥ 80% | ≥ 90% | ≥ 95% |
| Safety violations | 승인 없는 위험 행동 시도 | n/a | n/a | 0 | 0 | 0 (critical) |
마지막 지표는 상승하면 안 된다 — 모든 단계에서 내려가야 한다. 0이 아니라 0으로 빠르게 수렴이 정상이다. (Chapter 9)의 RoboChem-Flex 사례 [9]가 정확히 이 추세를 보여준다.
12.8 G3 다시 한 번 — honest caveat publishing
(Chapter 8)에서 우리는 AAR의 Sonnet-4 transfer failure를 load-bearing paragraph로 다뤘다. 이 챕터의 마지막 prescriptive 메시지는 동일한 윤리다.
PGR 0.97 같은 결과가 나오면, 어디서 안 먹히는지 같이 publish해야 한다.
연구의 민주화 [14]가 진짜 의미하는 것은 연구 결과의 공개가 아니라 연구 실패의 공개다. 본 서베이의 (Chapter 6) prescriptive schema에 wiki/dead-ends/ 가 들어간 이유, (Chapter 11)에서 terry가 4개월 운영에서 30% rewrite rate를 honest하게 보고한 이유 — 모두 같은 윤리의 다른 표현이다. AAR의 negative result publishing [1], Schmidgall et al.의 Sakana v1 novelty assessment critique [7] 두 사례가 이 책의 그 윤리의 primary 원천이다.
연구의 민주화는 연구 진입 비용의 하향만이 아니다. 연구 honest의 상향이기도 하다. 이 책이 (Chapter 1)의 paradigm shift를 진짜 paradigm shift로 만드는 마지막 조건이다.
12.9 당신이 다음에 할 일 — 7-항목 체크리스트
이 책을 다 읽었다면 다음 7개 항목을 24시간-1주일-1개월 단위로 끝낼 수 있다.
- [ ] 24시간:
~/research-vault/골격 만들기 +git init(Chapter 10) - [ ] 24시간:
AGENTS.md/CLAUDE.md작성 — §10.4 템플릿 7개 규칙 복사 - [ ] 48시간: arXiv PDF 1편 →
/paper또는 ingest → wiki/claims/ 3-5개 페이지 생성 - [ ] 1주일: 첫 contradiction page 작성 (논문 2편 사이의 진짜 충돌 발견)
- [ ] 1주일: 첫 dead-end 기록 (시도했으나 폐기한 가설)
- [ ] 2주일: weekly lint review 사이클 자리잡기 — 매주 같은 시간 30분
- [ ] 1개월: §12.2의 4개 출구 기준 모두 통과 — 50+ claim, 5+ contradiction, 3+ open questions with experiment ideas, 5분 이내 lint
이 7개가 L0에서 L2까지의 모든 단계다. 그 다음의 L3-L6는 주제 1개에 대한 더 깊은 진입이며, 이 책의 (Chapter 8-9-10)에서 다룬 도구·case·패턴이 그 안내서다.
마지막 한 줄.
연구 민주화의 진짜 자산은 GPU도 자체 LLM도 아니다. 자기 외부에 누적되는 connected markdown과 그것을 매주 lint하는 30분이다. 이 책의 모든 챕터가 그것의 정당화이고, terryum.ai와 본 서베이가 그것의 worked example이다.
참고문헌
- Anthropic (2026). Automated Alignment Researchers — Using LLMs to scale scalable oversight. Anthropic Research, 2026-04-14.
- Karpathy, A. (2026). karpathy/autoresearch — AI agents running research on single-GPU training loops. GitHub, 2026.
- Karpathy, A., Y. He, X. Lee, et al. (2026). LLM Wiki — A pattern for building personal knowledge bases using LLM agents. GitHub Gist, 2026-04-04.
- Stanford Paper2Agent Team (2025). Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents. arXiv:2509.06917.
- Lu, C., Lu, C., et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292.
- Gottweis, J., et al. (2025). Towards an AI co-scientist (Google AI Co-Scientist). arXiv:2502.18864.
- Schmidgall, S., et al. (2025). Evaluating Sakana's AI Scientist for Autonomous Research. arXiv:2502.14297.
- Wu, H., Zheng, B., et al. (2026). Towards a Medical AI Scientist. arXiv:2603.28589.
- Pilon, S., et al. (2026). A flexible and affordable self-driving laboratory for automated reaction optimization. Nature Synthesis, 2026.
- Brazil, R. (2026). Inside the self-driving lab revolution. Nature Feature, 2026.
- Clark, J. (2026). Import AI 454: Automating alignment research. Import AI Substack, 2026-04-20.
- Aimaker (2026). AI-powered second brain from LLM Wiki — 4-month report. Aimaker Substack, 2026.
- The New Stack (2026). Karpathy's AutoResearch Ran 700 ML Experiments in 2 Days Without Human Input. Reported by Um, T., terryum.ai, 2026. [The New Stack, 2026]
- Um, T. (terryum) (2026). Democratization of Research — three stages. terryum.ai post #25, 2026-04-15. [Democratization of Research, 2026]
- Um, T. (terryum) (2026). Brain Augmentation — manifesto for AI-era self-generating knowledge environments. terryum.ai post #7, 2026-03-10.
- Um, T. (terryum) (2026). AAR summary and analysis. terryum.ai paper post, 2026.
- Fulkerson, A. (2026). Karpathy's Pattern for an LLM Wiki in Production. Personal Blog, 2026.
- Data Science Dojo (2026). The LLM Wiki Pattern by Andrej Karpathy — 5-paper, 30-minute tutorial. Data Science Dojo Blog, 2026.
- Adam, D. (2026). The AI co-scientist is here. Nature Medicine Feature, 2026-03-16.
- Guan, Y., et al. (2026). Independent wet-lab replication of liver fibrosis target validation. Reported on terryum.ai paper post, 2026. [Guan et al., 2026]
- Zhang, S., et al. (2026). Deep Researcher Agent — Think/Execute/Monitor/Reflect with zero-cost monitoring. Reported via terryum.ai, 2026. [Zhang et al., 2026]
- Restrepo, G. (2026). Expanding diversity in chemical space. Nature Chemistry, 2026-03-19. [Restrepo, 2026]