용어집 (Glossary)

A~Z 순. 각 항목 끝 `(Ch N)`은 해당 용어가 도입되거나 집중 논의된 챕터.

A

AAR (Automated Alignment Researcher): Anthropic이 2026-04 공개한, Claude Opus 4.6 인스턴스 9개가 5일간 weak-to-strong supervision 연구를 자율 수행한 시스템. PGR 0.97 vs 인간 기준선 0.23 (Ch1, Ch7, Ch8, Ch12).

AGENTS.md: Codex와 호환 가능한 agent 행동 규칙 instruction file. `CLAUDE.md`의 도구-중립 대응물 (Ch4, Ch10).

Agentic Research Associate: 4-레이어 분류 중 세 번째 계층. Claude Code/Codex가 sandbox repo에서 문헌·코드·분석·보고서를 갱신하며 연구를 수행하는 단계 (Ch2, Ch10).

AI Co-Scientist: Google이 Gemini 2.0 위에 구축한 멀티에이전트 시스템. generation·debate·evolution·Elo tournament로 가설을 자기개선. AML/간섬유증/cf-PICIs wet-lab 검증 (Ch1, Ch7, Ch9).

AI Scientist: 4-레이어 분류 중 가장 자율적인 계층. 가설→실험 설계→실행→분석→논문/리뷰 응답까지 폐쇄루프로 수행 (Ch2, Ch7, Ch12).

autoresearch: Karpathy가 2026-03 공개한 자율 ML 실험 프레임워크. 단일 `train.py`를 agent가 수정·실행·평가하는 루프. 2일 700 실험, GPT-2 Time-to-Train 11% 단축 (Ch1, Ch8).

B

Bounded Autonomy: AI Scientist L6 단계에서 wet-lab/robot 명령은 인간 승인 게이트를 거치는 운영 패턴. 완전 자율과 대비 (Ch9, Ch12).

Brain Augmentation: terry가 2026-03 essay에서 정의한 "AI 시대 연구 = 자가발전 지식 창출 환경 구축" 철학. 본 서베이의 출발점 (Ch1, Ch11).

C

claim schema: 연구용 LLM Wiki의 page-level 형식. Evidence / Confidence / Scope / Contradicts / Relevance / Next experiment / Owner를 강제 필드로 (Ch6).

CLAUDE.md: Claude Code의 agent 행동 규칙 instruction file. AGENTS.md의 Claude 측 대응 (Ch4, Ch10).

Codex CLI: OpenAI가 제공하는 로컬 terminal coding agent. 0.128.0(2026-04-30)에서 `/goal` long-horizon, permission profiles, Worktree/Cloud 추가 (Ch10).

contradiction page: LLM Wiki에서 두 source 간 또는 source-내부 데이터 모순을 명시적으로 기록하는 페이지. wiki rot 방어의 핵심 (Ch6).

E

Extended Mind: Clark & Chalmers 1998 *Analysis* 논문이 제안한 parity principle — 외부 저장소가 인지 과정의 일부일 수 있다. Brain Augmentation의 철학적 anchor (Ch1, Ch11).

H

hook: Claude Code agent lifecycle의 특정 지점에서 실행되는 deterministic shell command. citation check, raw immutability, test-before-run 등을 강제 (Ch10).

honest negative result publishing: Schmidgall et al.의 Sakana v1 critique과 Anthropic AAR의 Sonnet-4 transfer caveat이 함께 정착시키는 분야 규율 — 부정적 결과를 footnote가 아닌 본문으로 publish (Ch3, Ch7, Ch8, Ch12).

L

LLM Wiki: 4-레이어 분류 중 첫 번째 계층. agent가 raw source를 읽고 markdown wiki 페이지를 누적·갱신하는 외장 지식 엔진. Karpathy의 2026-04-04 gist가 16M view를 기록하며 패턴을 정의 (Ch2, Ch4).

M

MCP (Model Context Protocol): LLM agent를 외부 도구·DB·API와 연결하는 표준 인터페이스. PubMed/Benchling 같은 연구 소스 통합에 사용 (Ch4, Ch10).

MemGPT: Packer et al. 2023이 제안한 OS-virtual-memory 비유의 LLM context 관리. LLM Wiki의 archival store 부분의 직계 조상 (Ch4).

O

open question page: LLM Wiki에서 "아직 모르는 것"을 명시적으로 기록하는 페이지. 가설 생성의 1차 source가 됨 (Ch6).

P

Paper-to-Agent: 4-레이어 분류 중 두 번째 계층. 논문을 단순 요약이 아닌 호출 가능한 MCP tool / Python module로 변환. Stanford Paper2Agent이 대표 (Ch2, Ch8).

PGR (Performance Gap Recovered): weak-to-strong generalization 평가 지표. AAR이 0.97을 달성해 인간 0.23 대비 크게 앞서나, Sonnet-4 transfer는 통계적으로 유의하지 않음 (Ch7, Ch8).

R

RAG (Retrieval-Augmented Generation): query-time에 vector DB에서 chunk를 검색해 LLM에 주입하는 방식. LLM Wiki와 대비되는 baseline — LLM Wiki는 ingest-time과 maintenance-time에 synthesis (Ch4).

S

Sakana The AI Scientist: Sakana AI의 end-to-end AI Scientist 시스템. v1(arXiv:2408.06292, 2024-08)이 본 서베이의 tail-tracking 출발점, v2(arXiv:2504.08066, 2025-04)가 agentic tree search + ICLR workshop 제출 (Ch3, Ch7).

SDL (Self-Driving Lab): 실험 protocol 생성·robot 실행·결과 수집을 자동화한 wet-lab 시스템. King Adam(2009 Science)이 첫 사례, RoboChem-Flex 2026이 LLM 결합 후속 (Ch9, Ch12).

subagent: Claude Code의 specialized assistant. 별도 context window·system prompt·tool access를 가지며 task-specific workflow 수행 (Ch10).

W

wiki rot: LLM Wiki가 시간이 지나면서 잘못된 요약·오래된 지식·출처 손실로 품질이 저하되는 현상. 본 서베이 시점 실증 corpus n=2(aimaker n=1 + Yu 비평) (Ch6).

worked example (재귀): terry가 본 서베이를 만든 도구(Obsidian × terryum.ai × Claude Code/Codex × terry-surveys 모노레포)가 동시에 Ch11의 worked example이 되는 메타 모먼트 (Ch11).

6-Level Maturity

L0~L6: AI 연구 도구 활용의 6단계 성숙도. L0 일회 요약 → L1 Research Assistant → L2 LLM Wiki → L3 Paper-to-Agent → L4 Agentic Research Associate → L5 Dry-lab AI Scientist → L6 Wet-lab AI Scientist (Ch3, Ch12).