CAIBench: A Meta-Benchmark for Evaluating Cybersecurity AI Agents
Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents (Sanz-Gómez, Mayoral-Vilches et al., 2025)
Introduction
Cybench·CVE-Bench·AutoAdvExBench처럼 단일 측면을 깊게 보는 벤치마크가 늘어나면서, 자연스러운 질문이 생긴다.
“이들을 하나로 묶어, 사이버 보안 AI 에이전트를 공격·방어·지식·프라이버시 전반에서 일관되게 평가할 수 없을까?”
CAIBench는 그 메타 벤치마크다. AgentBench가 일반 agent를 8개 환경으로 묶었듯, CAIBench는 사이버 보안 에이전트를 5개 차원으로 묶어 “이론 지식과 실전 능력의 간극”을 정면으로 측정한다.
5개 평가 차원
CAIBench는 1만 개 이상의 인스턴스로 구성되며, 다음 다섯 차원을 포괄한다.
| 차원 | 내용 |
|---|---|
| Jeopardy-style CTF | 단답형 CTF (암호·웹·리버싱 등 개별 과제) |
| Attack & Defense CTF | 공방전 — 공격과 방어를 동시에 수행하는 대전형 |
| Cyber Range | 모의 네트워크/시스템에서의 종합 침투·대응 훈련 |
| Knowledge benchmarks | 보안 지식 평가 (MCQ 류) |
| Privacy (CyberPII-Bench) | 개인식별정보(PII) 처리·프라이버시 평가 |
특기할 점은 로봇 보안(RCTF2) 과제를 도입해, 사이버-물리 시스템(로봇)에 대한 공격까지 평가 범위에 넣었다는 것이다. 저자진(Mayoral-Vilches 등)은 로봇 보안 배경이 있다.
평가 방법론
CAIBench의 핵심은 공격과 방어를 동시에, 그리고 프라이버시까지 함께 평가한다는 점이다. 단순 지식 QA(차원 4)부터 다단계 적응적 공방(차원 1–3), 민감정보 처리(차원 5)까지 한 프레임에서 본다. 메타 벤치마크답게 기존 평가들(CTF, 침투, 지식)을 구성요소로 통합한다.
Experiments
핵심 결과
| 과제 유형 | 성공률 |
|---|---|
| 보안 지식(Knowledge) | ~70% |
| 다단계 적대적 시나리오 | 20–40% |
| 로봇 타깃 | ~22% |
핵심 발견 두 가지
- 지식 ≠ 실전 능력: 모델은 보안 지식 MCQ에서 ~70%를 받지만, 실제 다단계 공방에서는 20–40%로 급락한다. 저자는 이를 “개념적 지식과 적응적 능력 사이의 뚜렷한 간극”이라 표현한다. AutoAdvExBench의 “숙제 vs 실전” 간극, CVE-Bench의 13%와 정확히 같은 메시지다.
- 스캐폴딩이 점수를 좌우: framework·모델 선택만으로 성능이 최대 2.6배 변동한다. 이는 사이버 보안 LLM 개관에서 짚은 “점수인가 스캐폴딩인가” 문제를 정량화한 것이다 — 벤치마크 점수를 모델 능력으로 곧장 해석하면 안 된다.
의의와 한계
의의
- 사이버 보안 agent를 공격·방어·지식·프라이버시·로봇까지 통합 평가한 첫 메타 벤치마크.
- “지식 ↔ 실전” 간극과 “스캐폴딩 민감도”를 한 프레임에서 수치화.
한계
- 메타 벤치마크 특성상 각 차원의 깊이는 전용 벤치마크(Cybench 등)보다 얕을 수 있다.
- 구성요소가 많아 결과 해석·재현이 복잡하다.
Conclusion
CAIBench의 메시지는 명확하다. 사이버 보안 LLM은 “아는 것”과 “하는 것”이 다르다. 지식 70%와 실전 20–40%의 격차, 그리고 스캐폴딩에 따른 2.6배 변동은, Claude Mythos 같은 능력 주장을 읽을 때 “그 점수가 모델 본연의 능력인지, 평가 셋업의 산물인지”를 항상 의심해야 함을 일깨운다.
이어서 읽기: 사이버 보안 LLM 개관 · Cybench · AutoAdvExBench · CyberSecEval
참고 문헌
- Cybersecurity AI Benchmark (CAIBench) (arXiv 2510.24317) — Sanz-Gómez, Mayoral-Vilches et al., 2025
Enjoy Reading This Article?
Here are some more articles you might like to read next: