Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents (Sanz-Gómez, Mayoral-Vilches et al., 2025)

Introduction

Cybench·CVE-Bench·AutoAdvExBench처럼 단일 측면을 깊게 보는 벤치마크가 늘어나면서, 자연스러운 질문이 생긴다.

“이들을 하나로 묶어, 사이버 보안 AI 에이전트를 공격·방어·지식·프라이버시 전반에서 일관되게 평가할 수 없을까?”

CAIBench(Cybersecurity AI Benchmark)는 그 메타 벤치마크다. 비유하자면 단일 과목 시험이 아니라 종합 평가원이다. 필기시험(지식 MCQ), 실기 단독시험(Jeopardy CTF), 실전 대련(Attack & Defense), 모의 현장훈련(Cyber Range), 그리고 윤리·개인정보 처리(Privacy)까지 한 기관에서 일관된 채점 규칙으로 본다. AgentBench가 일반 agent를 8개 환경으로 묶었듯, CAIBench는 사이버 보안 에이전트를 5개 차원·1만+ 인스턴스로 묶어 “이론 지식과 실전 능력의 간극”을 정면으로 측정한다.

항목	내용
무엇	사이버 보안 AI 에이전트용 모듈형 메타 벤치마크
구성	5개 차원 (Jeopardy CTF · A&D CTF · Cyber Range · Knowledge · Privacy), 10,000+ 인스턴스
핵심 발견 1	지식 점수(70–89%) ≠ 실전 능력(20–50%) — “아는 것 ≠ 하는 것”
핵심 발견 2	스캐폴딩(framework+model) 조합만으로 점수 최대 2.6배 변동
평가 대상	alias1/alias0, gpt-5, claude-sonnet-4.5, gemini-2.5-pro, qwen3, deepseek-R1
저자	Alias Robotics 팀 (Sanz-Gómez, Mayoral-Vilches 등), 2025

저자진은 로봇 보안 배경(Alias Robotics)을 가지고 있어, 일반 벤치마크가 잘 다루지 않는 로봇/사이버-물리 시스템 공격(RCTF2)까지 평가 범위에 넣은 점이 특징이다.

Background — 왜 “메타” 벤치마크인가

사이버 보안 LLM 평가의 가장 큰 문제는 파편화다. 사이버 보안 LLM 개관에서 봤듯, CTF 풀이는 Cybench가, CVE 익스플로잇은 CVE-Bench가, 적대적 예제는 AutoAdvExBench가, 지식은 CyberSecEval이 각각 본다. 각 벤치마크는 점수 척도·스캐폴딩·실행 환경이 모두 달라서, “모델 A가 Cybench에서 46%, CVE-Bench에서 13%”라는 숫자를 횡적으로 비교하기 어렵다.

더 근본적인 문제는 “점수 ≠ 모델 능력”이다. 에이전트 평가에서 최종 점수는 모델 본연의 추론력뿐 아니라

\[\text{Score} = f(\underbrace{\text{model}}_{\text{추론·지식}},\ \underbrace{\text{scaffolding}}_{\text{도구·context·분해}},\ \underbrace{\text{harness}}_{\text{실행환경}})\]

세 요소의 곱으로 결정된다. 같은 모델이라도 도구 오케스트레이션과 task 분해 전략(=스캐폴딩)이 다르면 점수가 크게 흔들린다. 그래서 단일 벤치마크 숫자만으로 “이 모델이 해킹을 X% 한다”고 말하는 것은 위험하다. CAIBench는 여러 차원을 한 프레임에 통합해 이 두 문제(파편화 + 스캐폴딩 교란)를 동시에 정면으로 다룬다.

구성 — 5개 차원

CAIBench는 기존 평가들을 구성요소로 흡수하는 모듈형 설계다. 차원별 내용과 인스턴스 수는 다음과 같다.

차원	구성요소 (인스턴스)	측정 대상
① Jeopardy CTF	Base 23 + Cybench 38 + RCTF2 27 + AutoPenBench 29 = 117 챌린지	단답형 침투 능력 (web·pwn·crypto·rev)
② Attack & Defense	10 챌린지 (난이도 ⋆ ~ ⋆⋆⋆⋆⋆, IT/OT·ICS)	공격·방어 동시 수행, 적응적 대전
③ Cyber Range	10~12개 레인지, 14~16 챌린지	모의망 종합 침투·대응
④ Knowledge	SecEval 2,000+ · CyberMetric ~10,000 · CTIBench 2,500 = ~14,500 문항	보안 지식·위협 인텔리전스 (MCQ+RCM)
⑤ Privacy	CyberPII-Bench 78~79 엔트리, 25개 PII 유형	로그 내 PII 탐지·처리

여기서 주목할 두 가지.

차원 ①에 RCTF2(로봇 CTF) 27개가 포함된다. 로봇 프로토콜(ROS 등)·임베디드 취약점을 다루는 사이버-물리 과제로, 일반 LLM이 학습 데이터에서 거의 접하지 못한 영역이다.
차원 ④는 기존 지식 벤치마크 3종을 그대로 흡수했다. SecEval(9개 보안 도메인), CyberMetric(약 1만 MCQ), CTIBench(MCQ + RCM 추론). 합치면 인스턴스의 대부분이 사실 지식 문항이고, 실전(①②③)은 수백 개 규모다. “1만+ 인스턴스”라는 규모감의 상당 부분은 지식 MCQ에서 온다는 점을 해석 시 유념해야 한다.

평가 방법론

채점 척도

차원마다 본질이 다르므로 채점 방식도 다르다.

차원	메트릭
Jeopardy CTF	\(\text{pass}_{100}@1\) — 1회 시도 내 100점짜리 플래그 획득 여부, time-to-solution
Cyber Range	\(\text{pass}_{200}@1\) — 200점짜리 종합 시나리오 1회 해결
A&D CTF	공격 +100(user flag)/+200(root flag), 방어 라운드당 +13(가동시간), Win-Tie-Loss
Knowledge	MCQ 정확도(%)
Privacy	Precision/Recall/F1/F2 (프라이버시 맥락이라 재현율 강조 → F2 중시)

A&D는 20분 매치업 동안 공격 점수와 방어 점수(서비스 가동시간)를 동시에 쌓는 구조라, 공격력만으로는 이길 수 없다. 자기 서비스를 패치해 가동시간을 유지하면서 상대를 뚫어야 한다. 이 동시성이 “단발 익스플로잇”과 “실전 적응”을 가르는 핵심 설계다.

스캐폴딩 민감도 실험

CAIBench의 가장 영리한 실험 설계는 모델과 framework를 분리해 본 것이다. 같은 A&D 과제를 두 축으로 교차시킨다.

모델 축: alias1, gpt-5, claude-sonnet-4.5, gemini-2.5-pro, qwen3
framework(스캐폴딩) 축: CAI, Claude Code, OpenAI Codex, Gemini CLI, Qwen Code

이렇게 하면 “claude-sonnet-4.5라는 모델”의 점수가 아니라 “claude-sonnet-4.5 + Claude Code라는 조합”의 점수가 나온다. 모델을 고정하고 framework만 바꿀 때 점수가 얼마나 흔들리는지를 보면, 위 식의 \(\text{scaffolding}\) 항의 기여도를 분리해낼 수 있다.

Experiments

차원별 종합 결과

다음은 주요 모델의 차원별 점수다(논문 Table 5/7/8 기반).

Model	Base	Cybench	RCTF2	SecEval	CTI-MCQ	CTI-RCM	CyberMetric	Privacy F1	Cyber Range	A&D (W-T-L)
alias1	67%	31%	22%	72%	73%	74%	89%	0.46	50%	25-45-30
alias0	67%	14%	—	78%	75%	74%	88%	0.37	30%	—
gpt-5	58%	28%	—	70%	73%	61%	87%	—	60%	40-40-20
claude-sonnet-4.5	75%	46%	—	—	—	—	—	—	50%	20-50-30
gemini-2.5-pro	54%	18%	—	—	—	—	—	—	—	0-0-100
qwen3-32B	45%	10%	—	71%	67%	63%	88%	—	—	0-0-100

세 가지가 한눈에 보인다.

지식(SecEval·CTI·CyberMetric)은 모두 60~89%로 포화 상태다. 모델 간 차이가 작다. 보안 사실 지식은 이미 LLM에 충분히 학습돼 있다.
실전 CTF로 갈수록 점수가 무너진다. Base(쉬운 단답)는 45~75%지만, 진짜 연구급인 Cybench는 10~46%로 떨어지고, RCTF2(로봇)는 alias1조차 22%다.
A&D는 모델별로 극단적으로 갈린다. gemini-2.5-pro와 qwen3-32B는 0-0-100 (전패), 반면 gpt-5는 40-40-20으로 절반 가까이 이긴다. 같은 “지식 80%대” 모델들이 실전에서 전패와 우세로 갈린다.

지식 ↔ 실전 간극의 정량화

핵심 발견 1을 숫자로 묶으면 다음과 같다.

능력 유형	대표 점수	해석
보안 지식 (MCQ)	70–89%	거의 포화, 모델 간 차이 미미
다단계 적대 시나리오(A&D)	20–40%	적응적 대전에서 급락
로봇 타깃 (RCTF2)	~22%	학습 데이터 부재 영역, 최저
프라이버시 (PII F1)	0.46	최고 모델조차 절반 이하

저자의 표현을 그대로 옮기면 “LLM의 사전학습된 사이버 보안 지식은 공격·방어 능력을 함의하지 않는다(pre-trained knowledge does not imply attack and defense abilities).” 이는 AutoAdvExBench의 “숙제 vs 실전” 간극, CVE-Bench가 보인 실전 익스플로잇 13%대와 정확히 같은 메시지다. MCQ를 잘 푸는 것과 라이브 타깃을 뚫는 것은 별개의 능력이다.

스캐폴딩 2.6배 발견

핵심 발견 2. A&D 두 서비스(cowsay·pingpong)에서 framework별 절대 점수를 비교하면:

Agent (framework + model)	총점 (cowsay+pingpong)	CAI 대비
CAI (alias1)	751 (347 + 404)	100%
Claude Code (claude-sonnet-4.5)	≈320	42.6%
Codex (gpt-5-Codex)	≈320	42.6%
Gemini CLI (gemini-2.5-pro)	≈172	22.9%
Qwen Code (qwen3-coder)	≈102	13.6%

CAI+alias1이 차순위 대비 2.6배 높은 점수를 낸다. 그런데 차순위인 Claude Code의 백본(claude-sonnet-4.5)은 사실 Jeopardy CTF에서 alias1보다 점수가 높은(Cybench 46% vs 31%) 모델이다. 즉 더 강한 백본 모델이 더 약한 스캐폴딩에 얹히면, 통합 A&D 점수에서 뒤집힌다. 점수 차의 상당 부분이 모델이 아니라 framework의 task 분해·context 관리·병렬 목표 처리 능력에서 온다는 뜻이다.

\[\Delta\text{Score} \approx 2.6\times \quad\Rightarrow\quad \text{scaffolding 항} \gtrsim \text{model 항}\]

이는 사이버 보안 LLM 개관에서 짚은 “점수인가 스캐폴딩인가” 문제를 처음으로 정량화한 결과다.

분석 — 왜 이런 격차가 생기나

지식 포화 vs 실전 붕괴의 원인은 task 구조에 있다. MCQ는 단일 스텝·정답 닫힌집합이지만, A&D/Cyber Range는

다단계: 정찰 → 취약점 식별 → 익스플로잇 → 권한상승 → 지속성, 한 스텝만 어긋나도 0점
적응적: 상대(또는 환경)가 반응하므로 정적 정답이 없음
장기 context: 20분 매치에서 수십 스텝의 상태를 추적해야 함

여기서 framework의 역할이 결정적이 된다. CAI 같은 전용 스캐폴딩은 task를 하위 목표로 분해하고, 도구 호출 결과를 context에 압축해 유지하며, 공격·방어를 병렬로 관리한다. 범용 코딩 에이전트(Claude Code, Codex)는 이런 보안 특화 오케스트레이션이 약해, 강한 백본을 얹어도 실전에서 손해를 본다. 로봇(RCTF2) 22%는 또 다른 축의 한계다 — 도구·스캐폴딩 문제가 아니라 학습 데이터 자체의 공백(로봇 프로토콜·임베디드 취약점)에서 온다.

한계

차원 깊이 vs 폭의 트레이드오프: 메타 벤치마크 특성상 각 차원의 깊이는 전용 벤치마크(Cybench 등)보다 얕을 수 있다. A&D 10개, Cyber Range 14개 등 실전 인스턴스 수는 지식 MCQ(~1.4만)에 비해 적다.
저자 모델 우위: 최상위 성능을 내는 alias1/CAI는 저자진(Alias Robotics)의 자체 모델·framework다. “CAI가 2.6배 우월”이라는 결론은 자사 스캐폴딩에 유리한 평가 설계 가능성을 감안해 읽어야 한다.(주의) 다만 모델/framework 분리 실험 자체는 일반적 함의를 갖는다.
재현 복잡도: 구성요소(CTF 117 + A&D 10 + Range 14 + 지식 3종 + Privacy)가 많아 전체 재현·해석이 복잡하다. 라이브 타깃 기반 과제는 환경 의존성도 크다.
프라이버시 데이터 소규모: CyberPII-Bench는 78~79 엔트리로, 통계적 일반화에는 표본이 작다.

의의

사이버 보안 agent를 공격·방어·지식·프라이버시·로봇까지 통합 평가한 첫 메타 벤치마크.
“지식 ↔ 실전” 간극(70–89% vs 20–40%)과 “스캐폴딩 민감도”(2.6배)를 한 프레임에서 동시에 수치화.
모델·framework 분리 실험으로, 벤치마크 점수 해석의 표준(=조합 단위로 보고할 것)을 제시.

Conclusion

CAIBench의 메시지는 명확하다. 사이버 보안 LLM은 “아는 것”과 “하는 것”이 다르다. 지식 70–89%와 실전 20–40%의 격차, 로봇 22%, 그리고 스캐폴딩에 따른 2.6배 변동은 — Claude Mythos 같은 능력 주장을 읽을 때 “그 점수가 모델 본연의 능력인지, 평가 셋업(스캐폴딩)의 산물인지”를 항상 의심해야 함을 일깨운다. 단일 시험 점수가 아니라, 종합 평가원의 차원별 성적표로 모델을 봐야 한다는 것이 이 논문의 핵심 처방이다.

이어서 읽기: 사이버 보안 LLM 개관 · Cybench · CVE-Bench · AgentBench · AutoAdvExBench · CyberSecEval · Claude Mythos

참고 문헌

Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents (arXiv 2510.24317) — Sanz-Gómez, Mayoral-Vilches, Balassone, Navarrete-Lozano, Veas Chavez, del Mundo de Torres, 2025
CAIBench HTML 전문 (arXiv:2510.24317v1)
CAIBench 공식 문서 — Alias Robotics CAI
SecEval: A Comprehensive Benchmark for Evaluating Cybersecurity Knowledge of Foundation Models
CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Cybersecurity Knowledge
CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence (arXiv 2406.07599)
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models

CAIBench: A Meta-Benchmark for Evaluating Cybersecurity AI Agents