에이전트가 처음으로 내 저장소의 파일을 제대로 고쳐 놓는 순간, 인상적인 건 수정 자체가 아닙니다. 어디를 봐야 하는지 알아낸 것입니다. 무엇을 읽고, 무엇을 무시하고, 무엇을 확인할지 — 그 감각이 사실상 일의 대부분입니다.
문제의 모양
쓸 만한 코딩 에이전트는 동시에 세 가지를 추정합니다. 사용자가 원하는 것, 코드베이스가 이미 하는 것, 어떤 부작용이 생길지. 첫 번째는 모델 크기가 도와줍니다. 두 번째와 세 번째는 검색과 피드백의 영역입니다.
- 범위: 중요한 파일에만 주의를 좁혀야 합니다. 그렇지 않으면 잠깁니다.
- 근거: 추측 대신 읽어야 합니다. 수정 제안 전에.
- 루프: 자기 수정의 결과를 관찰해야 합니다 — 테스트, 타입, 런타임 — 그리고 교정해야 합니다.
더 큰 모델만으로는 풀리지 않는 이유
큰 모델은 더 많은 컨텍스트를 담을 수 있지만, 담는 것과 무엇을 담을지 고르는 것은 다릅니다. 모델을 둘러싼 하니스(harness) — 모델 위의 루프 — 에 엔지니어링의 대부분이 들어 있습니다. 같은 모델 위에 만든 두 제품이 한 세대 차이로 느껴지는 이유입니다.
모델은 기억이 없는 빠른 인턴이라고 가정하세요. 시니어 엔지니어는 그 주변 시스템입니다.
무엇을 볼 것인가
에이전트형 개발 도구를 평가할 때 데모에서 멈추지 마세요. 무엇을 읽을지 어떻게 고르는지, 틀렸을 때 무엇을 하는지, 계획을 사용자가 보고 덮어쓸 수 있는지를 물어야 합니다. 그 답이 실제 저장소를 만났을 때 도구가 살아남을지를 알려 줍니다.