GAIA: a benchmark for General AI Assistants (Mialon et al., Meta AI & HuggingFace, ICLR 2024)

Introduction

LLM 평가의 trend는 점점 더 어려워지는 시험 문제를 푸는 것이었다. GPT-4가 MMLU에서 86.4%를 기록하고, US bar exam을 통과하고, USMLE 합격선을 넘었다. “전문가용 시험”이 의미를 잃고 있다.

그러나 동시에 LLM은 일상의 평범한 task에서 자주 무너진다.

“NASA 천체물리학 데이터 시스템에서, R. G. Arendt를 저자로 포함하는 2018년 8월 13일 이전에 출판된 논문 중, NGC 1858 클러스터에 대한 별의 형성률을 가장 높게 보고한 논문의 별 형성률은?”

이 질문은 박사 수준 추론이 필요한 것도 아니고, 어려운 수학도 아니다. 그저 NASA ADS에서 검색하고, 필터링하고, 여러 논문을 비교하고, 수치를 추출하면 된다. 인간 어노테이터는 평균 8분이면 푼다. 그러나 GPT-4는 이 종류의 task에서 처참하게 실패한다.

GAIA는 이 격차에 주목했다. 저자(Meta AI · HuggingFace · AutoGPT 공동)의 진단은 신랄하다.

“Conceptually simple for humans yet challenging for most advanced AIs.”

기여를 정리하면 다음과 같다.

인간에게 쉬운 466개의 질문을 만들어 AI assistant를 평가하는 새 paradigm 제시
인간 92% vs GPT-4 + plugins 15%라는 충격적 gap을 정량화
3단계 난이도(Level 1/2/3)로 능력의 점진적 측정 가능
HuggingFace 리더보드 공개로 사실상의 표준 벤치마크 정착

이 논문은 ICLR 2024 Spotlight에 발표되었고, 이후 모든 frontier 모델 출시에서 GAIA 점수가 보고되는 사실상의 north star가 되었다.

기존 LLM 평가의 4가지 문제

GAIA 저자는 기존 평가 방식의 한계를 4가지로 정리한다.

#	문제	구체적 사례
1	사람에게 어려운 task ≠ AI에게 어려운 task	MMLU·GSM8K가 사람에겐 어려우나 LLM에겐 saturate됨
2	Open-ended generation 평가의 불가능성	AI가 책 한 권을 쓰면 어떻게 평가하나?
3	Model-based evaluation의 한계	더 강한 모델로 평가하므로 SOTA 평가 한계, position bias
4	시험 위주 평가의 saturation	GPT-4가 bar exam·USMLE 통과

특히 벤치마크 saturation 속도가 빠르다. 저자는 다음을 인용한다 (Kiela et al., 2023).

GLUE: 출시 후 1년 이내 human-level 초과
SuperGLUE: 2년 내 saturate

이 속도로는 어떤 시험형 벤치마크를 만들어도 빠르게 무력화된다.

“Proof of Work” 비유

GAIA가 측정하려는 것은 다음과 같다.

“Solution is easy to verify, but the process requires accurate execution of a complex sequence.”

저자는 이를 cryptographic Proof of Work(Jakobsson & Juels 1999)에 비유한다. Bitcoin이 nonce를 찾는 데 엄청난 연산이 필요하지만 검증은 한 줄짜리 hash 비교로 끝나는 것처럼, GAIA의 답은 검증은 단순(short string match)하지만 도출은 복잡(긴 action sequence)하다.

t-AGI / Levels of AGI와의 연결

Morris et al. (2023)의 Levels of AGI 프레임워크에서, GAIA를 풀 수 있는 시스템은 “competent General AI” 수준에 해당한다. 이는 ChatGPT가 위치한 단계보다 한 단계 위다. 즉 GAIA는 “다음 단계의 AGI를 측정하는 도구”로 위치 지어진다.

벤치마크 설계 원칙

GAIA는 4가지 설계 원칙을 따른다.

1. Real-world and challenging

LLM이 open & changing web을 browsing해야 하고, multi-modality(이미지·음성·표)를 처리해야 하며, multi-step reasoning을 수행해야 한다. 기존 LLM 벤치마크가 closed/synthetic 환경에 국한된 것과 정반대다.

2. Easy interpretability

컨셉상 단순한 task — non-expert 어노테이터의 92%가 정답을 맞춘다. 동시에 highly curated된 적은 수의 질문(466개)으로 reasoning trace를 사람이 따라가서 검증할 수 있다.

3. Non-gameability

다음 4가지로 cheating을 막는다.

답이 plain text로 인터넷에 존재하지 않도록 설계 → contamination 방지
다양한 action space → brute-force 불가
multiple choice가 아닌 단답형 → 잘못된 reasoning으로 우연히 정답에 도달하기 어려움
MMLU 같은 multiple choice의 contamination 모호성 회피

4. Simplicity of use

답이 factoid, concise, unambiguous한 short string·숫자·list로 통일된다. zero-shot prompting만 허용해 prompt-sensitive 평가 noise를 제거한다.

Level 1 / 2 / 3 정의

GAIA는 3단계 난이도로 나뉜다.

Level	정의	평균 human 소요시간	질문 수
Level 1	도구 없음 또는 1개 도구, 5단계 이내	6.8 분	146
Level 2	5~10단계, 여러 도구 조합 필요	10.5 분	245
Level 3	near-perfect general assistant, 임의로 긴 action sequence	17.7 분	75

이 경계는 hard constraint가 아니다. step 10 미만이라도 복잡한 web navigation이 필요하면 Level 3로 분류된다.

데이터셋 상세

분포

총 466개 질문.

공개 developer set: 166개 (정답 포함)
비공개 test set: 300개 (leaderboard용)

필요 능력

각 질문은 다음 중 하나 이상을 요구한다.

능력	예시 도구
Web browsing	web browser, search engine, YouTube, Google Street View
Multi-modality	speech-to-text, image recognition, OCR, video recognition
Coding	Python, calculator, C++ compiler, cipher 도구
Diverse filetype reading	PDF, Excel, PowerPoint, CSV, TXT
Text-only	LLM 단독으로 가능한 task

일부 질문에는 파일(이미지·비디오·오디오·스프레드시트·PDF)이 첨부된다.

웹 browsing은 “click only”로 제한된다(스팸·예약·댓글 방지). 파일 업로드는 future work로 남겼다.

어노테이션 프로세스

Surge AI 어노테이터 + 저자 팀 공동 작업
질문 1개 작성 + 2명 추가 어노테이터 검증 = 약 2시간 소요
어노테이터 분포: Age 26-35세 39%, 36-45세 26%, Bachelor 61% / Master 26% / PhD 17%

검증 통계 (Table 3)

623개 새 질문에 대해 1,246번 추가 annotation을 수행했다.

결과	비율
2명 추가 어노테이터가 원본 답과 동일	55%
1명만 동일	27%
둘 다 다름	18%
Valid 질문 (aggregated)	68%

Valid rate는 Level에 따라 다르다. Level 1은 75%, Level 2는 68%, Level 3는 47%다. Level 3는 ambiguity 발생률이 가장 높다 — task 자체가 복잡해 사람도 다르게 해석할 여지가 있다.

Human score(어노테이션 정답률)는 다음과 같다.

Level	Human score
Level 1	94%
Level 2	92%
Level 3	87%
Aggregated	92%

구체적 예시 질문

논문 Figure 1의 실제 질문을 그대로 인용한다.

Level 1

“What was the actual enrollment count of the clinical trial on H. pylori in acne vulgaris patients from Jan-May 2018 as listed on the NIH website?”

Ground truth: 90

annotation에 따르면 이 질문은 8 step, 8분이 걸린다. 단계: Google → nih.gov → “h pylori acne” 검색 → Clinical Trials 필터 → 해당 trial → Tabular View → Actual Enrollment 확인.

Level 2

“If this whole pint is made up of ice cream, how many percent above or below the US federal standards for butterfat content is it when using the standards as reported by Wikipedia in 2020? Answer as + or - a number rounded to one decimal place.”

Ground truth: +4.6

영양 성분표 이미지 + Wikipedia 검색 + 계산이 결합된다.

Level 3

“In NASA’s Astronomy Picture of the Day on 2006 January 21, two astronauts are visible, with one appearing much smaller than the other. As of August 2023, out of the astronauts in the NASA Astronaut Group that the smaller astronaut was a member of, which one spent the least time in space, and how many minutes did he spend in space, rounded to the nearest minute? Exclude any astronauts who did not spend any time in space. Give the last name of the astronaut, separated from the number of minutes by a semicolon. Use commas as thousands separators in the number of minutes.”

Ground truth: White; 5876

NASA APOD 검색 → 이미지에서 작은 우주비행사 식별 → 해당 우주비행사의 그룹 조회 → 그룹 멤버의 우주 비행 시간 검색 → 비교 → 포맷에 맞춰 답.

평가 방식

Scoring

Quasi exact match. 모델 답과 ground truth 간 정확 일치 — 타입별 normalization(숫자는 콤마 제거 등) 적용.

답은 string(단어 몇 개), 숫자, 또는 comma-separated list 중 하나로 제한된다.

System prompt (논문 Figure 2 원문)

“You are a general AI assistant. I will ask you a question. Report your thoughts, and finish your answer with the following template: FINAL ANSWER: [YOUR FINAL ANSWER].

YOUR FINAL ANSWER should be a number OR as few words as possible OR a comma separated list of numbers and/or strings.

If you are asked for a number, don’t use comma to write your number neither use units such as $ or percent sign unless specified otherwise.

If you are asked for a string, don’t use articles, neither abbreviations (e.g. for cities), and write the digits in plain text unless specified otherwise.”

Tools / Plugins

GAIA는 AI system 전체를 평가한다 — 개별 모델이 아닌. 따라서 web browser, code interpreter, file reader 등 어떤 도구든 자유롭게 쓸 수 있다.

Submission / Leaderboard

166개는 정답 공개 (developer set)
300개는 정답 비공개 (test set, leaderboard)
HuggingFace Space 운영: gaia-benchmark/leaderboard
모델당 3회 실행 후 평균

Experiments

메인 결과 (Table 4)

Method	L1	L2	L3	비고
Human annotator	93.9%	91.8%	87.3%	평균 6.8/10.5/17.7분
GPT-4 + plugins*	30.3%	9.7%	0%	oracle plugin 수동 선택
AutoGPT (GPT-4 backend)	14.4%	0.4%	0%	7.6~11.7분 소요
GPT-4 Turbo (no tools)	13.0%	5.5%	0%	메모리 기반만
GPT-4 (no tools)	9.1%	2.6%	0%
Search engine	7.4%	0%	0%	web 단독

* “GPT-4 + plugins”는 저자가 질문별로 가장 적합한 plugin을 수동 선택한 oracle 시나리오다. ChatGPT plugin API가 없었기 때문에 manual로 진행했다.

핵심 관찰

1. Level 3에서 모든 LLM이 0%

가장 충격적인 결과다. Human은 87.3%인데 모든 AI 시스템이 0%. Level 3는 긴 action sequence와 여러 도구 조합이 필요한 task인데, 어떤 시스템도 한 문제도 풀지 못했다.

2. Plugin의 효과는 큼 (그러나 충분치 않음)

GPT-4 plain: L1에서 9.1% GPT-4 + plugins: L1에서 30.3% (약 3배)

도구 사용이 큰 향상을 주지만, 그래도 인간(93.9%)에 한참 못 미친다.

3. AutoGPT가 의외로 부진

AutoGPT는 L2에서 0.4%로 plain GPT-4(2.6%)보다 낮다. 저자는 다음과 같이 추측한다.

“AutoGPT’s use of the GPT-4 API (prompt, generation parameters) may explain this.”

또한 AutoGPT는 7.6~11.7분이 걸려 사람만큼 느리다. 자율성에 따른 비용이 정확도 향상으로 보상되지 않았다.

4. Web search engine 단독은 7.4%

L1조차 단순 검색만으로는 풀리지 않는다. GAIA는 검색 + 종합 + 추론의 조합을 요구한다.

도구별 효과 분석

논문 Figure 5는 capability별 점수를 보여준다.

Capability	tool 없는 GPT-4	tool 있는 GPT-4
Web browsing	일부 가능 (memorize한 경우)	크게 향상
Diverse filetype reading	≈ 0%	code interpreter로 향상
Multi-modality	≈ 0%	plugin으로 향상
Coding/Reasoning	일부 가능	code interpreter로 강화

요점: multi-modality와 file reading은 도구 없이는 불가능하다. 반면 web browsing은 LLM이 일부 정보를 이미 memorize했기 때문에 도구 없이도 약간의 점수가 나온다.

실패 분석

저자가 본문에서 분석한 대표적 실패 케이스:

Plain GPT-4의 knowledge cut-off 한계: 위 Saint Petersburg 예시(Figure 9)에서 GPT-4는 “Unable to provide”로 응답. browsing이 있으면 정답 “Saint Petersburg”.
Puzzle에 약함: Rubik’s cube 예시(Figure 11)에서 GPT-4가 “Red, Yellow”로 답함. 정답은 “green, white”.
Plugin 부재 → file processing 불가: Excel sales 예시(Figure 2)는 Advanced Data Analysis가 있어야 풀린다.
AutoGPT의 dense trace: 길고 verbose한 trajectory가 verifiability와 효율 둘 다 손해.

이후 동향 (2024-2026)

논문 발표(2023-11) 시점에는 GPT-4 + plugins가 15%(aggregated)였다. 이후 발전 속도가 매우 빠르다.

시점	시스템	점수
2023-11	GPT-4 + plugins	15%
2024 중반	OpenAI Deep Research, Microsoft Magnetic-One	~67-70% (validation)
2024 말	H2O.ai h2oGPTe Agent	75% (test)
2025	Manus AI (Monica)	~75% (validation)
2025 중반	Writer’s Action Agent	Level 3에서 61%

논문 발표 2년 만에 5배 향상이다. 그러나 human 92%에는 여전히 못 미친다.

후속작 GAIA2 / ARE (HuggingFace, 2025)는 더 어려운 벤치마크로 등장했다. GPT-5 high reasoning이 최고 점수, 오픈소스로는 Kimi K2가 최고로 보고된다.

Discussion

저자가 인정한 한계

Trace 평가 부재: 최종 답만 평가. reasoning path는 채점하지 않는다.

“Different paths could lead to the correct answer and there is no obvious and simple ways to grade those.”
Closed-source assistant의 재현성: ChatGPT plugin은 시간에 따라 변경/삭제될 수 있다 (Chen et al., 2023). GAIA는 최종 답만 보지만 시스템 자체의 변화는 추적 불가.
Static benchmark의 decay: web에 의존하므로 시간이 지나면 일부 evidence가 사라진다.

“Static benchmarks are broken benchmarks in the making.” 저자는 GAIA를 매년 갱신할 것을 권장한다.
Annotation cost: 질문 1개에 ~2시간. MMLU 15K에 비해 GAIA는 466개로 적다.
Language/Cultural diversity 부재: 모든 질문이 en-US 영어. 세계 인구의 80%는 non-English speaker.
Tool sub-component 평가 불가: 시스템 전체를 평가하므로 vision module이 틀렸는지, LLM의 reasoning이 틀렸는지 구분 어렵다.

Short-answer scoring의 한계

답이 short factoid라 unambiguity 보장이 어렵다. 매우 자세한 질문(Level 3의 “Use commas as thousands separators” 같은 조건)이 필요해 부자연스러워진다. 저자도 다음을 인정한다.

“Some GAIA questions come with many details hence seem unnatural.”

실제 사용자는 under-specified 질문을 던지기 마련이고, 좋은 assistant는 source 인용 또는 가장 신뢰성 있는 답 선택을 한다. 이는 GAIA가 평가하지 못한다.

Partial vs Full Automation 논의

GAIA는 full automation 평가다 — 어떤 approximation도 허용되지 않는다. 저자는 1% 에러와 0% 에러의 차이가 자율주행처럼 본질적 차이를 만든다고 강조한다. 이 관점에서 socio-economic implication에 대한 우려도 제기하며 open-source의 필요성을 강조한다.

Conclusion

GAIA의 의의는 단순히 “어려운 벤치마크 하나”를 추가한 것이 아니다.

새 평가 철학 제시: “conceptually simple, yet challenging” — 이게 GAIA의 차별점이고, 이후 AgentBench·SWE-bench·WebArena 등 모든 agent 벤치마크 설계에 영향을 줬다.
인간 baseline의 정량화: 92%라는 구체적 숫자가 “AGI까지의 거리”를 시각화했다.
frontier 모델 평가의 north star: 이후 모든 frontier 모델이 GAIA 점수를 reporting한다.
빠른 진전의 관찰소: 2년 만에 15% → 75%로 5배 향상되는 과정을 모두가 추적할 수 있었다.

GAIA가 던진 메시지는 명확하다. AGI는 새 시험을 더 잘 푸는 모델이 아니라, 사람이 매일 하는 일을 똑같이 신뢰성 있게 해내는 시스템이다. 시험 점수가 saturate되는 시대일수록, 이 reality check가 더 절실하다.

이어서 읽기: AgentBench: LLM as Agent 평가의 종합 paradigm, SWE-bench: 실 레포의 실 이슈로 평가하라, TelAgentBench