CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities

CVE-Bench: A Benchmark for AI Agents’ Ability to Exploit Real-World Web Application Vulnerabilities (Zhu et al., UIUC, 2025)

Introduction

Cybench가 “잘 정의된 CTF 문제”를 다룬다면, CVE-Bench는 한 걸음 더 나아가 실제 세상에 존재하는 진짜 취약점(CVE)을 자율적으로 익스플로잇하는 능력을 측정한다. CTF는 출제자가 의도적으로 심은 취약점이지만, CVE는 실제 소프트웨어에서 발견되어 보고된 결함이다. 후자가 훨씬 현실적이고 위험하다.

배경에는 Daniel Kang 그룹(UIUC)의 일련의 연구가 있다 — “LLM 에이전트가 one-day 취약점을 자율 익스플로잇할 수 있다”는 도발적 결과들이다. CVE-Bench는 이 주장을 표준화·재현 가능한 벤치마크로 정립한다.

핵심 기여:

  • 실제 critical-severity CVE 기반의 웹 애플리케이션 익스플로잇 과제
  • 실세계 조건을 모사하면서도 자동 채점이 가능한 컨테이너 샌드박스
  • 다양한 agent framework·모델의 자율 공격 성공률 정량화

왜 웹 애플리케이션 CVE인가

웹 애플리케이션은 (a) 공격 표면이 명확하고(HTTP), (b) 익스플로잇 성공을 상태 변화로 객관 검증하기 좋으며(예: 인증 우회로 관리자 권한 획득, DB 유출), (c) 실제 피해가 가장 빈번한 영역이다. CVE-Bench는 critical 등급 CVE만 골라, “성공하면 명백히 심각한” 시나리오로 구성한다.

평가 환경

샌드박스

각 CVE마다 취약 버전의 웹 앱을 띄운 격리 컨테이너를 제공한다. 에이전트는 OSWorld·SWE-bench처럼 실제 환경과 상호작용하며, 익스플로잇이 성공했는지는 execution 기반으로 검증한다.

공격 성공 기준 (attack target)

CVE-Bench는 익스플로잇 결과를 여러 유형의 목표로 정의한다 — 예컨대 무단 관리자 접근, 데이터베이스 변조/유출, 파일 접근, 서비스 거부 등. 각 목표는 컨테이너 상태를 검사해 자동 판정한다. 즉 “취약점을 건드렸다”가 아니라 “실제로 악영향을 달성했다”를 본다.

본 글은 방어적 분석 관점에서 평가 구조만 다루며, 구체적 익스플로잇 절차·페이로드는 포함하지 않는다.

Experiments

평가 방식

여러 agent scaffold(자율 익스플로잇용 프레임워크)와 frontier 모델을 조합해 평가한다. 에이전트는 앱을 탐색하고, 취약점을 식별하고, 익스플로잇을 시도하며, 목표 달성 여부로 채점된다.

핵심 결과

  • 최신 agent framework가 최대 약 13%의 취약점을 자율적으로 익스플로잇하는 데 성공했다.
  • 13%는 낮아 보이지만, 사람의 개입 없이 실제 CVE를 무기화한다는 점에서 의미가 크다. Cybench의 “인간 11분 과제까지” 결과와 함께 보면, 자율 공격 능력이 이미 비자명한 수준임을 보여준다.
  • 성공률은 scaffold·모델에 크게 의존한다(점수인가 스캐폴딩인가).

의의와 한계

의의

  • CTF를 넘어 실제 CVE로 자율 익스플로잇을 평가한 표준. Claude Mythos가 보인 “fully-patched 타깃 공격”과 같은 능력의 객관적 측정 도구.
  • execution 기반 채점으로 contamination·주관성에 강건.

한계

  • 웹 애플리케이션에 집중 — 커널·브라우저·바이너리 익스플로잇은 다루지 않는다(이는 Cybench exploitation 범주나 Mythos의 영역).
  • one-day(이미 공개·패치된 CVE) 중심이라, zero-day 발견 능력과는 구분된다.
  • 13%라는 수치는 빠르게 갱신될 수 있다 — 모델·scaffold 발전에 민감.

Conclusion

CVE-Bench는 “LLM 에이전트가 실제 취약점을 자율적으로 무기화할 수 있는가?”에 “이미 일부는 가능하다(최대 13%)”라는 정량적 답을 내놓았다. 이는 Cybench의 CTF 평가와 Claude Mythos의 frontier 능력 사이를 잇는 실세계 좌표다. 자율 공격 능력이 “연구실 데모”에서 “실제 위협 모델”로 넘어가고 있음을 보여준다.

이어서 읽기: 사이버 보안 LLM 개관 · Cybench · AutoAdvExBench · Claude Mythos

참고 문헌




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 사이버 보안에서의 LLM: 공격·방어·평가의 지형
  • Claude Mythos와 사이버 보안 LLM: 자율 취약점 발견의 변곡점
  • Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
  • AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses
  • CAIBench: A Meta-Benchmark for Evaluating Cybersecurity AI Agents