Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models (Zhang et al., Stanford, ICLR 2025 Oral)

Introduction

사이버 보안 LLM 시리즈에서 “자율 공격 역량”을 재는 가장 표준적인 벤치마크가 Cybench다. Claude Mythos가 보인 자율 익스플로잇 능력을 객관적으로 측정하려면, 정답을 암기로 풀 수 없고 실제로 환경과 상호작용해야만 풀리는 과제가 필요하다. CTF(Capture The Flag)가 정확히 그것이다.

CTF는 보안 대회의 표준 포맷으로, 참가자가 취약점을 찾아 익스플로잇하면 숨겨진 flag 문자열을 얻는다. flag는 정답 검증이 명확(string match)하지만, 도출 과정은 암호·웹·리버싱·바이너리 익스플로잇 등 복합적 실력을 요구한다 — GAIA의 “검증은 쉽지만 도출은 어렵다”와 같은 구조다.

Cybench는 Stanford(Dan Boneh, Percy Liang, Daniel Ho 등)가 만든 것으로, ICLR 2025 Oral에 발표되었다. 핵심 기여는 다음과 같다.

  • 프로 수준 CTF 40과제를 표준화된 실행 환경으로 제공
  • subtask 분해로 부분 진행도까지 측정
  • 통일된 cybersecurity agent로 다수 frontier 모델을 일관 평가
  • 모델 역량을 인간 전문가의 풀이 시간과 직접 비교

데이터셋 구성

40개 프로 CTF 과제

4개 대회에서 엄선했다.

출처 대회 성격
HackTheBox (Cyber Apocalypse 2024) 대규모 종합 CTF
SekaiCTF (2022–23) 고난도 경쟁 CTF
Glacier 전문가 대회
HKCert 지역 대표 대회

각 과제는 자연어 설명, 시작 파일, 그리고 실행 가능한 환경(Docker)을 포함한다. 과제는 6개 범주에 걸친다: 암호(crypto), 웹(web), 리버스 엔지니어링, 포렌식(forensics), 익스플로잇(exploitation), 기타(misc).

선정 기준은 (a) 최신(2022–2024), (b) 의미 있는 난이도, (c) 폭넓은 난이도 스펙트럼이다. 최신 과제를 고른 이유는 SWE-bench와 마찬가지로 데이터 오염(contamination)을 줄이기 위해서다 — 대부분 과제가 모델의 학습 컷오프 이후다.

subtask — 부분 진행도 측정

많은 CTF가 현재 LLM 능력을 넘어서 0점이 속출한다. Cybench는 각 과제를 중간 단계(subtask)로 쪼개, “최종 flag는 못 얻어도 어디까지 진행했는가”를 측정한다. 이는 TravelPlanner의 Micro/Macro 구분과 같은 동기 — 0/1 이분법으로는 보이지 않는 능력 차이를 드러낸다.

평가 프레임워크

Cybersecurity Agent

통일된 에이전트가 bash 셸이 있는 Kali Linux 환경에서 작동한다. ReAct 스타일로 매 스텝 명령을 실행하고 출력을 관찰하며, 최종적으로 flag를 제출한다. 도구는 표준 보안 유틸리티(파이썬, 네트워크 도구 등)를 포함한다.

Metric

  • 과제 성공률(unguided): 도움 없이 최종 flag 획득 비율
  • subtask 성공률(guided): subtask 안내를 받으며 각 단계 통과 비율
  • First Solve Time (FST): 대회에서 인간 팀이 그 과제를 처음 푼 시간 — 난이도의 인간 기준선

Experiments

평가 모델

GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22B Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct 등.

핵심 결과

  • 상위 모델(Claude 3.5 Sonnet, GPT-4o, o1-preview, Claude 3 Opus)은 인간 팀이 최대 약 11분 걸린 과제까지 자력으로 풀었다.
  • 그러나 가장 어려운 과제는 인간 팀이 24시간 54분이 걸린 것으로, 모델은 이런 고난도 과제에서 무너진다.
  • subtask 안내가 성공률을 끌어올린다 — 즉 모델은 “전체 전략 수립”보다 “주어진 하위 목표 수행”에 강하다. 이는 AgentBench의 “장기 추론이 진짜 병목”이라는 발견과 일치한다.

직관적으로, Cybench는 “모델이 풀 수 있는 CTF 난이도 = 인간 전문가 기준 몇 분짜리인가”를 좌표로 제공한다. 이 좌표 위에서 Claude Mythos 같은 모델의 도약을 시간순으로 추적할 수 있다.

의의와 한계

의의

  • 자율 cyber agent 평가의 사실상 표준. CAIBench 같은 메타 벤치마크가 Cybench를 구성요소로 포함한다.
  • FST를 통해 모델 역량을 인간 시간으로 환산 — 정책 결정자에게 직관적 위험 척도 제공.

한계

  • 40과제는 통계적으로 작다. 범주별 편차가 크다.
  • CTF는 “잘 정의된 대회 문제”라 실제 운영 환경의 모호함·지속성과는 거리가 있다 → CVE-Bench가 실제 CVE로 이 간극을 메운다.
  • 점수가 agent 스캐폴딩에 민감하다(점수인가 스캐폴딩인가 문제).

Conclusion

Cybench는 “LLM이 얼마나 위험한 해커인가”를 인간 전문가 시간이라는 직관적 단위로 측정 가능하게 만들었다. CTF라는 검증 가능한 과제 + subtask 부분 점수 + 통일된 agent라는 조합은 이후 사이버 보안 agent 평가의 템플릿이 되었다. Claude Mythos의 능력 도약을 읽을 때, Cybench는 그 도약을 객관적으로 위치시키는 자(尺)다.

이어서 읽기: 사이버 보안 LLM 개관 · Claude Mythos · CVE-Bench · CAIBench

참고 문헌




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 사이버 보안에서의 LLM: 공격·방어·평가의 지형
  • Claude Mythos와 사이버 보안 LLM: 자율 취약점 발견의 변곡점
  • CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
  • AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses
  • CAIBench: A Meta-Benchmark for Evaluating Cybersecurity AI Agents