SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity

SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity (Jing, Tang et al., Tencent Security Keen Lab · PolyU, 2024)

Introduction

Cybench·CVE-Bench가 “실제로 공격할 수 있는가(do)”를 본다면, SecBench는 그 토대가 되는 “보안을 얼마나 폭넓고 깊게 아는가(know)”를 대규모로 측정한다. 사이버 보안은 도메인이 방대해(암호·네트워크·웹·시스템·관리·규제 등), 범용 벤치마크(MMLU 등)로는 전문 역량을 가늠하기 어렵다.

SecBench는 저자들이 “사이버 보안 분야 LLM을 위한 가장 크고 종합적인 벤치마크”라 부를 만큼 규모가 크고, 한국어가 아닌 중국어·영어 이중언어로 구성된 점이 특징이다(다국어 보안 평가의 드문 사례).

데이터셋 구성

항목 내용
객관식(MCQ) 44,823개
주관식(SAQ) 3,087개
언어 중국어 + 영어
능력 수준 Knowledge Retention(지식 보유) + Logical Reasoning(논리 추론)
수집 고품질 오픈소스 데이터 + 사이버 보안 문제 출제 대회

두 가지 능력 축

SecBench의 핵심 설계는 문항을 두 능력으로 나눈 것이다.

  • Knowledge Retention: 사실·표준·개념을 아는가 (예: 특정 프로토콜·취약점 정의)
  • Logical Reasoning: 아는 것을 엮어 추론하는가 (예: 시나리오 분석, 다단계 판단)

이 구분은 CAIBench·CTIBench에서 반복된 “지식 ≠ 추론” 주제를 지식 평가 내부에서 분리해 본다.

수집 방식 — 출제 대회

단순 크롤링이 아니라 사이버 보안 문제 출제 대회(Cybersecurity Question Design Contest)를 열어 고품질 문항을 모았다. 이는 문항의 전문성·신선도를 높이고 contamination을 줄이는 장치다.

평가 방법

  • 16개 SOTA LLM을 평가.
  • MCQ는 자동 채점이 쉽지만, SAQ(주관식)는 채점이 어렵다 → 저자들은 비용 효율적 LLM을 grading agent로 써서 자동 채점한다(LLM-as-a-judge). 이는 LLM-as-a-judge 계열 기법의 보안 도메인 적용이다.

핵심 발견

  • 대규모·다차원 평가를 통해 모델별·도메인별·언어별 강약점을 세밀하게 드러낸다.
  • 일반적으로 지식 보유(Knowledge Retention)는 상대적으로 강하지만, 논리 추론(Logical Reasoning)에서 격차가 커진다 — 다시 한 번 “아는 것과 추론하는 것은 다르다”.
  • 이중언어 구성 덕에 언어에 따른 보안 지식 편차도 측정 가능하다.

의의와 한계

의의

  • 사이버 보안 지식 평가의 최대 규모(4.7만+ MCQ). 모델의 보안 도메인 기초 체력을 정밀 측정.
  • 지식/추론 분리, 이중언어, 대회 기반 수집 등 데이터 품질 설계가 정교.
  • SAQ 자동 채점(grading agent)으로 주관식까지 확장.

한계

  • 본질적으로 지식·추론 QA다 — Cybench·CVE-Bench의 실환경 자율 행동 능력과는 측정 대상이 다르다.
  • MCQ는 우연·암기로 풀릴 여지가 있어, 실전 능력의 상한이 아니라 하한에 가깝다.
  • LLM 채점기(SAQ)의 편향 가능성.

Conclusion

SecBench는 사이버 보안 LLM의 “기초 지식·추론 체력”을 대규모로 잰다. Cybench·CVE-Bench가 “할 수 있는가”를, CTIBench가 “분석할 수 있는가”를 본다면, SecBench는 그 모든 것의 토대인 “얼마나 아는가“를 본다. 지식이 곧 실전 능력은 아니지만(CAIBench의 간극), 지식 없이는 어떤 보안 작업도 신뢰할 수 없다는 점에서 이 토대 평가는 시리즈의 바닥을 받친다.

이어서 읽기: 사이버 보안 LLM 개관 · CTIBench · CAIBench · Claude Mythos

참고 문헌




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 사이버 보안에서의 LLM: 공격·방어·평가의 지형
  • Claude Mythos와 사이버 보안 LLM: 자율 취약점 발견의 변곡점
  • Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
  • CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
  • AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses