SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity (Jing, Tang et al., Tencent Security Keen Lab · PolyU, 2024)

Introduction

Cybench·CVE-Bench가 “실제로 공격할 수 있는가(do)”를 본다면, SecBench는 그 토대가 되는 “보안을 얼마나 폭넓고 깊게 아는가(know)”를 대규모로 측정한다. 사이버 보안은 도메인이 방대해(관리·데이터·네트워크·규제·애플리케이션·접근제어·SW/HW·엔드포인트·클라우드 등) 범용 벤치마크(MMLU 등)로는 전문 역량을 가늠하기 어렵다. SecBench는 이 공백을 44,823개 객관식(MCQ) + 3,087개 주관식(SAQ), 중국어·영어 이중언어, 9개 도메인 × 2개 인지 수준으로 메운다.

저자들은 SecBench를 “사이버 보안 분야 LLM을 위한 가장 크고 종합적인 벤치마크“라 부른다. 한 가지 흔한 오해를 먼저 바로잡자 — SecBench는 한·영이 아니라 중·영(Chinese/English) 이중언어다. 데이터 출처가 중국어권 보안 시험·교재·대회에 기반하기 때문이며, 실제로 MCQ의 80.4%가 중국어다.

항목	내용
객관식(MCQ)	44,823개
주관식(SAQ)	3,087개
언어	중국어 + 영어 (MCQ 中 80.4% / 英 19.6%)
도메인	9개 (관리·데이터·네트워크·규제·앱·접근제어·SW/HW·엔드포인트·클라우드)
인지 수준	Knowledge Retention(지식 보유) + Logical Reasoning(논리 추론)
평가 모델	16개 SOTA LLM (실제 결과 표는 13개)

비유하자면 SecBench는 보안 엔지니어 자격시험의 필기 + 서술형 종합판이다. Cybench가 “실습 시험(랩에서 실제로 뚫어봐)”이라면, SecBench는 “이 사람이 보안의 기초 지식과 추론 체력을 갖췄는가”를 자격증 규모로 검증한다.

Background — 왜 대규모 지식·추론 벤치마크인가

기존 사이버 보안 LLM 평가는 두 갈래로 갈렸다. 하나는 CTIBench처럼 위협 인텔리전스(CTI)라는 좁은 과업에 특화된 평가다. CTIBench는 MITRE ATT&CK 매핑, CVE→CWE 분류, CVSS 점수 산정 등 CTI 워크플로에 정밀하게 초점을 맞추지만, 보안 도메인 전반의 폭(암호·규제·클라우드 등)을 다루지는 않는다. 다른 하나는 Cybench·CVE-Bench처럼 에이전트가 실제로 행동(exploit) 하는지를 보는 평가다. 측정 대상이 “행동”이라 규모를 키우기 어렵고(과업당 수십~수백 개), 도메인 커버리지도 좁다.

SecBench는 세 번째 축을 채운다 — 지식·추론을 도메인 전반에 걸쳐 대규모로. 핵심 가설은 “행동 능력(do)은 지식·추론(know)이라는 토대 위에 선다“는 것이다. 그렇다면 토대 자체를 정밀하게 재는 도구가 필요하고, 그 도구는 (1) 충분히 커서 도메인·언어·난이도별로 쪼개도 통계가 살아 있어야 하고, (2) 단순 암기와 추론을 분리해야 하며, (3) 객관식의 우연성·암기 의존을 보완할 서술형을 포함해야 한다. SecBench는 이 셋을 모두 설계에 반영한다.

데이터셋 구성

규모와 언어 분포

SecBench의 첫 번째 무기는 규모다. 객관식만 4.4만 개로, 사이버 보안 지식 평가로는 최대급이다. 언어는 중국어 우세의 중·영 이중언어다.

유형	전체	중국어	영어
MCQ	44,823	80.4%	19.6% (약 9,000)
SAQ	3,087	97.4%	2.6% (약 100)

논문은 언어 분포를 백분율로만 제시하고 정확한 정수 개수는 명시하지 않는다(Fig.3·4). 본문에서 “영어 MCQ는 약 9,000문항, 영어 SAQ는 약 100문항”이라고만 언급한다.

이 분포 자체가 분석 대상이다. 중국어 보안 문항이 압도적으로 많다는 사실은, 영어 중심으로 학습된 모델(GPT 계열)과 중국어권 모델(Hunyuan, Qwen, GLM 등)의 언어별 보안 지식 편차를 드러낼 수 있게 한다.

9개 보안 도메인

문항은 9개 도메인으로 분류된다. 좁은 CTI 한 과업이 아니라 보안 실무 전반을 포괄한다는 점이 핵심이다.

#	도메인	예시 주제
1	Security Management (보안 관리)	거버넌스, 리스크, 정책
2	Data Security (데이터 보안)	암호, 데이터 보호, 키 관리
3	Network and Infrastructure Security (네트워크)	방화벽, 프로토콜, 침입 탐지
4	Security Standards and Regulations (표준·규제)	ISO, 등급보호, 컴플라이언스
5	Application Security (애플리케이션 보안)	웹 취약점, 시큐어 코딩
6	Identity and Access Control (식별·접근제어)	인증, 인가, IAM
7	Fundamental Software and Hardware Tech (SW/HW)	OS, 컴파일러, 하드웨어 기초
8	Endpoint and Host Security (엔드포인트·호스트)	악성코드, EDR, 호스트 강화
9	Cloud Security (클라우드 보안)	클라우드 구성, 멀티테넌시

두 가지 인지 수준 — Knowledge Retention vs Logical Reasoning

SecBench의 두 번째 무기는 인지 수준 분리다. 같은 객관식이라도 두 종류로 나눈다.

Knowledge Retention (KR, 지식 보유): 복잡한 추론 없이 사실·표준·개념을 아는가. 예: “AES의 블록 크기는?”, “어떤 프로토콜이 무상태인가?”
Logical Reasoning (LR, 논리 추론): 아는 것을 엮어 다단계로 판단하는가. 예: 주어진 로그·시나리오를 분석해 공격 단계를 추론, 여러 통제의 상호작용 판단.

이 구분은 CAIBench·CTIBench에서 반복된 “지식 ≠ 추론” 주제를, 객관식이라는 동일 형식 안에서 분리해 본다. 즉 형식 차이(객관식 vs 서술형)에 의한 교란 없이 순수한 인지 수준 차이를 잴 수 있다. 뒤에서 보겠지만 LR이 모델 간 변별력의 핵심이다.

데이터 수집 파이프라인

규모와 품질을 동시에 잡기 위해 SecBench는 2단계 + 필터링 파이프라인을 쓴다.

1단계 — 오픈소스 시드(10,551 MCQ) 시험 문제, 권위 있는 교재, 공개 출처에서 초기 객관식 10,551개를 수집한다. 이것이 도메인 분류 체계와 라벨링의 씨앗이 된다.

2단계 — 사이버 보안 문제 출제 대회(Cybersecurity Question Design Contest) 단순 크롤링의 한계(신선도·전문성·contamination)를 넘기 위해, 저자들은 직접 출제 대회를 열어 전문가가 새 문항을 작성하게 했다. 필터링·가공 후 여기서 MCQ 34,272개 + SAQ 3,087개를 추가로 확보했다.

\[44{,}823_{\text{MCQ}} = 10{,}551_{\text{open-source}} + 34{,}272_{\text{contest}}, \qquad 3{,}087_{\text{SAQ}} = \text{contest}\]

3단계 — 자동 라벨링 + 인간 검수 필터링 수집 문항은 자동·인간 혼합 파이프라인으로 거른다. GPT-4가 자동 라벨링(도메인 분류·품질 태깅)을 수행하고, 품질을 Qualified / Medium / High 3등급으로 나눈다. 이 LLM 판정에 인간 검수가 더해져 저품질·중복·오류 문항을 걸러낸다. 출제 대회로 신선도를, LLM+인간 필터링으로 품질을 잡는 이중 장치다.

직관: “전문가가 새로 출제 → LLM이 1차 선별·라벨 → 인간이 최종 검수”라는 구조는, 공개 시험 문제를 그대로 긁어오는 방식 대비 (a) 모델 학습 데이터와의 중복(contamination)을 줄이고 (b) 도메인·난이도 라벨의 일관성을 높인다.

평가 방법론

MCQ — 자동 채점

객관식은 정답 키와 비교하는 단순 정확도(accuracy)로 채점한다. 전체뿐 아니라 KR/LR, 9개 도메인, 언어별로 쪼개 본다.

SAQ — LLM-as-a-judge (Grading Agent)

서술형은 정답이 자유 텍스트라 자동 채점이 어렵다. SecBench는 GPT-4o-mini를 grading agent로 써서 0~100점으로 채점한다. 저자들은 “성능(이 과업에 충분)과 비용의 균형”을 이유로 GPT-4o-mini를 골랐다고 명시한다. 이는 LLM-as-a-judge 계열 기법의 보안 도메인 적용이다.

\[\text{Score}_{\text{SAQ}}(m) = \frac{1}{N}\sum_{i=1}^{N} \text{Judge}_{\text{GPT-4o-mini}}\big(a_i^{(m)},\, q_i,\, \text{ref}_i\big) \in [0, 100]\]

여기서 \(a_i^{(m)}\)은 모델 \(m\)의 i번째 답변, \(\text{ref}_i\)는 참조 답안이다. 평가자 자신이 LLM이라는 점에서 편향 가능성은 한계(아래)로 남는다.

Experiments

MCQ 결과 (정확도 %)

13개 모델의 전체/KR/LR 정확도다.

모델	전체(Overall)	KR	LR	KR−LR 격차
Hunyuan-Turbo	94.28	94.41	93.06	+1.35
Qwen2-72B	92.41	92.71	89.50	+3.21
GPT-4o	90.99	91.82	82.75	+9.07
Yi-1.5-34B	89.59	90.04	85.19	+4.85
Llama-3-70B	88.86	89.46	82.97	+6.49
GPT-4o-mini	88.79	89.86	78.27	+11.59
Qwen2-7B	87.74	88.29	82.29	+6.00
Yi-1.5-9B	86.44	87.03	80.57	+6.46
GPT-3.5-Turbo	86.36	87.26	77.43	+9.83
Mixtral-8x7B	86.08	86.78	79.19	+7.59
GLM-4-9B	84.57	85.14	78.95	+6.19
DeepSeek-V2-Lite	79.07	80.07	69.22	+10.85
Llama-3-8B	77.71	78.43	70.58	+7.85

두드러진 사실:

Hunyuan-Turbo가 94.28%로 1위, Qwen2-72B(92.41%)·GPT-4o(90.99%)가 뒤를 잇는다. 중국어 비중이 80%인 데이터셋임을 감안하면 중국어권 모델의 우위가 일정 부분 언어 친화성에 기인할 수 있다.
모든 모델에서 KR > LR. 즉 사실 암기는 잘하지만 추론에서 떨어진다. “아는 것 ≠ 추론하는 것”이 데이터로 다시 확인된다.
KR−LR 격차가 모델 품질의 변별점이다. 상위권(Hunyuan +1.35, Qwen2-72B +3.21)은 격차가 작아 추론까지 견고한 반면, GPT-4o-mini(+11.59)·DeepSeek-V2-Lite(+10.85)·GPT-3.5-Turbo(+9.83)는 추론에서 크게 무너진다. 전체 정확도가 비슷해도 LR을 보면 줄이 갈린다.

SAQ 결과 (0~100점, GPT-4o-mini 채점)

모델	SAQ 점수
GPT-4o	85.17
GPT-4o-mini	82.49
Hunyuan-Turbo	82.13
Qwen2-72B	82.13
Yi-1.5-34B	75.03
GPT-3.5-Turbo	74.78
Mixtral-8x7B	74.78
Llama-3-70B	68.12
GLM-4-9B	66.26
Yi-1.5-9B	65.24
Llama-3-8B	62.39
Qwen2-7B	59.99
DeepSeek-V2-Lite	44.84

서술형에서는 순위가 뒤집힌다. MCQ 1위였던 Hunyuan-Turbo가 SAQ에서는 GPT-4o(85.17)에 밀려 82.13으로 공동 3위권이다. 객관식에서 강했던 일부 모델이 서술형 생성에서 약해지는 것은, 선택지에서 고르는 능력과 답을 직접 서술하는 능력이 다름을 보여준다. SAQ가 거의 중국어(97.4%)임에도 GPT-4o가 1위라는 점도 흥미롭다 — 서술형 품질에서는 영어권 플래그십이 언어 불리를 상쇄한다.

분석 — 무엇을 읽어야 하나

LR이 진짜 시험이다. KR은 상위권이 모두 85~94%로 포화에 가깝다. 변별력은 LR에 있고, KR−LR 격차는 “암기 모델 vs 추론 모델”을 가르는 사실상의 진단 지표다.
형식(MCQ vs SAQ)이 측정하는 능력이 다르다. MCQ는 인식(recognition), SAQ는 생성(generation)을 본다. Hunyuan은 인식에서, GPT-4o는 생성에서 강하다. 한 형식만으로 모델을 평가하면 결론이 왜곡된다.
언어 효과를 통제해야 공정하다. 데이터의 80%가 중국어라, 절대 순위는 언어 친화성과 보안 역량이 뒤섞인 값이다. SecBench의 언어별 분해는 이 교란을 분리해 보게 해 주는 장치다.

한계

본질적으로 지식·추론 QA다 — Cybench·CVE-Bench의 실환경 자율 행동(exploit)과는 측정 대상이 다르다. SecBench 고득점이 실전 침투/방어 능력을 보장하지 않는다.
MCQ의 우연·암기: 4지선다는 무작위로도 25% 맞고, 암기로 풀릴 여지가 있어 실전 능력의 상한이 아니라 하한에 가깝다.
언어 편향: 중국어 80% 구성은 절대 순위를 중국어권 모델 쪽으로 기울일 수 있다.
LLM 채점기 편향: SAQ를 GPT-4o-mini가 채점하므로, GPT 계열 답변 스타일에 유리하게 작용할 가능성(self-preference bias)을 배제하기 어렵다. 실제로 SAQ 상위 2위가 GPT-4o, GPT-4o-mini다.
공개 결과 표는 16개 평가 모델 중 13개만 정리돼 있어 o1 계열 등 일부 모델의 수치는 본 리뷰에서 확인하지 못했다(미확인).

의의

사이버 보안 지식 평가의 최대 규모(44,823 MCQ + 3,087 SAQ). 모델의 보안 도메인 기초 체력을 9개 도메인 × 2개 인지 수준 × 2개 언어로 정밀 분해한다.
출제 대회 + LLM/인간 필터링이라는 데이터 품질 설계로 신선도와 contamination 저항성을 함께 잡았다.
KR/LR 분리로 “암기 vs 추론” 진단을, SAQ grading agent로 서술형까지 확장 — 한 벤치마크에서 다차원 진단이 가능하다.

Conclusion

SecBench는 사이버 보안 LLM의 “기초 지식·추론 체력”을 대규모로 잰다. Cybench·CVE-Bench가 “할 수 있는가(do)”를, CTIBench가 좁은 CTI를 “분석할 수 있는가”를 본다면, SecBench는 그 모든 것의 토대인 “얼마나 폭넓고 깊게 아는가(know)“를 본다. 핵심 교훈은 두 가지다 — 전체 정확도가 아니라 KR−LR 격차를 봐야 추론력이 드러나고, MCQ와 SAQ는 다른 능력을 잰다. 지식이 곧 실전 능력은 아니지만(CAIBench의 간극), 지식 없이는 어떤 보안 작업도 신뢰할 수 없다는 점에서 이 토대 평가는 사이버 보안 LLM 시리즈의 바닥을 받친다.

이어서 읽기: 사이버 보안 LLM 개관 · CTIBench · Cybench · CAIBench · Claude Mythos

참고 문헌

SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity (arXiv 2412.20787) — Jing, Tang et al., Tencent Security Keen Lab · PolyU, 2024
SecBench arXiv HTML 버전
SecBench 프로젝트 페이지
CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence (arXiv 2406.07599) — 좁은 CTI 과업 특화 벤치마크 (대조군)
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models (arXiv 2408.08926) — 실환경 CTF 행동 평가 (대조군)
관련 시리즈 글: 사이버 보안 LLM 개관 · CTIBench · Cybench · CAIBench · Claude Mythos