CAIBench: A Meta-Benchmark for Evaluating Cybersecurity AI Agents

Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents (Sanz-Gómez, Mayoral-Vilches et al., 2025)

Introduction

Cybench·CVE-Bench·AutoAdvExBench처럼 단일 측면을 깊게 보는 벤치마크가 늘어나면서, 자연스러운 질문이 생긴다.

“이들을 하나로 묶어, 사이버 보안 AI 에이전트를 공격·방어·지식·프라이버시 전반에서 일관되게 평가할 수 없을까?”

CAIBench는 그 메타 벤치마크다. AgentBench가 일반 agent를 8개 환경으로 묶었듯, CAIBench는 사이버 보안 에이전트를 5개 차원으로 묶어 “이론 지식과 실전 능력의 간극”을 정면으로 측정한다.

5개 평가 차원

CAIBench는 1만 개 이상의 인스턴스로 구성되며, 다음 다섯 차원을 포괄한다.

차원 내용
Jeopardy-style CTF 단답형 CTF (암호·웹·리버싱 등 개별 과제)
Attack & Defense CTF 공방전 — 공격과 방어를 동시에 수행하는 대전형
Cyber Range 모의 네트워크/시스템에서의 종합 침투·대응 훈련
Knowledge benchmarks 보안 지식 평가 (MCQ 류)
Privacy (CyberPII-Bench) 개인식별정보(PII) 처리·프라이버시 평가

특기할 점은 로봇 보안(RCTF2) 과제를 도입해, 사이버-물리 시스템(로봇)에 대한 공격까지 평가 범위에 넣었다는 것이다. 저자진(Mayoral-Vilches 등)은 로봇 보안 배경이 있다.

평가 방법론

CAIBench의 핵심은 공격과 방어를 동시에, 그리고 프라이버시까지 함께 평가한다는 점이다. 단순 지식 QA(차원 4)부터 다단계 적응적 공방(차원 1–3), 민감정보 처리(차원 5)까지 한 프레임에서 본다. 메타 벤치마크답게 기존 평가들(CTF, 침투, 지식)을 구성요소로 통합한다.

Experiments

핵심 결과

과제 유형 성공률
보안 지식(Knowledge) ~70%
다단계 적대적 시나리오 20–40%
로봇 타깃 ~22%

핵심 발견 두 가지

  1. 지식 ≠ 실전 능력: 모델은 보안 지식 MCQ에서 ~70%를 받지만, 실제 다단계 공방에서는 20–40%로 급락한다. 저자는 이를 “개념적 지식과 적응적 능력 사이의 뚜렷한 간극”이라 표현한다. AutoAdvExBench의 “숙제 vs 실전” 간극, CVE-Bench의 13%와 정확히 같은 메시지다.
  2. 스캐폴딩이 점수를 좌우: framework·모델 선택만으로 성능이 최대 2.6배 변동한다. 이는 사이버 보안 LLM 개관에서 짚은 “점수인가 스캐폴딩인가” 문제를 정량화한 것이다 — 벤치마크 점수를 모델 능력으로 곧장 해석하면 안 된다.

의의와 한계

의의

  • 사이버 보안 agent를 공격·방어·지식·프라이버시·로봇까지 통합 평가한 첫 메타 벤치마크.
  • “지식 ↔ 실전” 간극과 “스캐폴딩 민감도”를 한 프레임에서 수치화.

한계

  • 메타 벤치마크 특성상 각 차원의 깊이는 전용 벤치마크(Cybench 등)보다 얕을 수 있다.
  • 구성요소가 많아 결과 해석·재현이 복잡하다.

Conclusion

CAIBench의 메시지는 명확하다. 사이버 보안 LLM은 “아는 것”과 “하는 것”이 다르다. 지식 70%와 실전 20–40%의 격차, 그리고 스캐폴딩에 따른 2.6배 변동은, Claude Mythos 같은 능력 주장을 읽을 때 “그 점수가 모델 본연의 능력인지, 평가 셋업의 산물인지”를 항상 의심해야 함을 일깨운다.

이어서 읽기: 사이버 보안 LLM 개관 · Cybench · AutoAdvExBench · CyberSecEval

참고 문헌




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 사이버 보안에서의 LLM: 공격·방어·평가의 지형
  • Claude Mythos와 사이버 보안 LLM: 자율 취약점 발견의 변곡점
  • Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
  • CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
  • AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses