CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence (Alam, Bhusal, Nguyen, Rastogi, RIT, NeurIPS 2024)

Introduction

지금까지의 Cybench·CVE-Bench가 공격(offense) 능력을 다뤘다면, CTIBench는 방어자·분석가의 일 — 위협 인텔리전스(Cyber Threat Intelligence, CTI) — 를 평가한다. SOC(Security Operations Center) 분석가가 매일 마주하는 작업을 그대로 벤치마크로 옮긴 것이다.

SOC에 새 위협 보고서나 취약점이 쏟아져 들어올 때, 분석가는 이런 질문을 던진다.

새 취약점이 어떤 약점 유형(CWE)에 속하는가? (근본 원인 분류)
이 취약점의 심각도(CVSS)는 얼마인가? (대응 우선순위)
이 공격은 어떤 위협 행위자(threat actor)의 소행인가? (귀속)
이 보고서에 등장하는 공격 기법을 MITRE ATT&CK로 어떻게 매핑하는가? (기법 추출)

CTIBench는 이 흐름을 다섯 개의 하위 과제로 분해해 약 4,610개 샘플로 평가한다.

과제	내용	데이터 출처	지표
CTI-MCQ	CTI 지식 객관식 (표준·프레임워크·개념)	MITRE ATT&CK, CWE, 표준	Accuracy
CTI-RCM	CVE → CWE 매핑 (근본 원인 분류)	NVD 2024 (CVE 1,000건)	Accuracy
CTI-VSP	CVSS 심각도 예측 (정량화)	NVD 2024 (CVE 1,000건)	MAD (평균 절대 편차)
CTI-TAA	위협 행위자 귀속 (보고서→APT)	벤더 위협 보고서 50건	Correct / Plausible
CTI-ATE	ATT&CK 기법 추출 (텍스트→기법 ID)	MITRE ATT&CK (악성코드 60건)	Micro-F1

CTI-MCQ가 “아는가“를 본다면, RCM/VSP/TAA/ATE는 “구조화된 추론을 할 수 있는가“를 본다. 이 구분이 이 논문의 핵심 축이다. 그리고 이 영역에서는 환각(hallucination)이 치명적이다 — 잘못된 귀속이나 심각도는 대응 자원을 엉뚱한 곳에 쏟게 만든다.

Background — CTI와 네 가지 표준

위협 인텔리전스는 “누가, 무엇을, 어떻게 공격하는가”에 대한 구조화된 지식이다. 분석가는 비정형 텍스트(위협 보고서, CVE 설명)를 받아서, 산업 표준 어휘로 분류·정량화한다. CTIBench가 다루는 네 가지 표준을 먼저 정리한다.

CVE — 취약점 식별자

Common Vulnerabilities and Exposures. 알려진 개별 취약점에 붙는 고유 ID(예: CVE-2024-12345). MITRE가 관리하고, NVD(National Vulnerability Database)가 설명·메타데이터를 보강한다. CTIBench의 RCM/VSP 과제는 NVD 2024 데이터의 CVE 설명문(자연어)을 입력으로 쓴다.

CWE — 약점 유형(근본 원인)

Common Weakness Enumeration. 개별 취약점이 아니라 약점의 유형을 분류하는 계층 체계(예: CWE-79 Cross-Site Scripting, CWE-89 SQL Injection). “이 CVE의 근본 원인이 무엇이냐”는 질문이 곧 CVE → CWE 매핑이고, 이것이 CTI-RCM 과제다.

CVSS — 심각도 점수

Common Vulnerability Scoring System. 취약점 심각도를 0~10으로 정량화한다. 단일 숫자가 아니라 벡터 문자열로 구성된다 — 예: AV:N/AC:L/PR:N/UI:N/S:U/C:H/I:H/A:H. 각 메트릭(Attack Vector, Privileges Required, Scope, Confidentiality Impact 등)을 추정해 합산하면 base score가 나온다. CTI-VSP는 이 점수를 얼마나 정확히 맞히는지를 본다.

MITRE ATT&CK — 공격 기법·행위자 지식베이스

공격자의 전술(Tactic)과 기법(Technique)을 코드화한 지식베이스(예: T1059 Command and Scripting Interpreter). 또한 APT(Advanced Persistent Threat) 그룹과 그들이 쓰는 기법·악성코드를 연결한다. CTI-ATE(기법 추출)와 CTI-TAA(행위자 귀속)가 여기에 기댄다.

핵심은, 이 표준들이 사람이 만든 위계 구조라는 점이다. 단순 암기로는 객관식을 풀 수 있어도, 비정형 설명문을 정확한 라벨로 매핑하려면 도메인 추론이 필요하다.

구성 — 5개 태스크

CTI-MCQ — 지식 객관식

CTI 표준·프레임워크·best practice에 대한 2,500개 객관식. 출처 구성은 MITRE ATT&CK 1,578문항, CWE 750문항, 수동 작성 40문항, 표준 문서 32문항이다. 지표는 단순 정확도다.

\[\text{Accuracy} = \frac{\text{맞힌 문항 수}}{\text{전체 문항 수}}\]

“LLM이 CTI 개념을 얼마나 기억하고 있는가”의 하한선을 잰다. 이 과제가 잘 나오면 지식은 있다는 뜻이지만, 그것이 적용으로 이어지는지는 다른 과제가 검증한다.

CTI-RCM — CVE → CWE 근본 원인 매핑

NVD 2024의 CVE 1,000건 설명문을 입력으로, 정확한 CWE 라벨을 출력하는 분류 과제다. 지표는 정확도. 핵심 난점은 CWE가 수백 개 노드의 계층 트리라는 것 — 비슷한 약점(예: CWE-787 Out-of-bounds Write vs CWE-125 Out-of-bounds Read) 사이를 자연어 설명만으로 구별해야 한다.

CTI-VSP — CVSS 심각도 예측

NVD 2024의 CVE 1,000건에 대해 CVSS v3.1 벡터를 추정하고 base score를 산출한다. 지표는 예측 점수와 실제 점수의 평균 절대 편차(Mean Absolute Deviation, MAD)다.

\[\text{MAD} = \frac{1}{N}\sum_{i=1}^{N}\left|\,s_i^{\text{pred}} - s_i^{\text{true}}\,\right|\]

여기서 \(s_i\)는 0~10 범위의 CVSS base score다. MAD가 낮을수록 좋다. MAD 1.31이라는 건 “평균적으로 심각도를 약 1.3점 빗나간다”는 뜻 — 7.5짜리 위협을 8.8 혹은 6.2로 보는 셈이다.

CTI-TAA — 위협 행위자 귀속

벤더(공신력 있는 보안 업체)의 위협 보고서 50건에서 행위자 정보를 제거한 뒤, 보고서 내용만으로 어떤 APT 그룹/악성코드 패밀리의 소행인지 추론한다. 자유 생성 과제이며, 두 가지 정확도로 채점한다.

Correct Accuracy: 정확히 맞힌 비율
Plausible Accuracy: 정확하거나 그럴듯한(같은 캠페인·연관 그룹 등) 답까지 인정한 비율

이 둘의 차이가 곧 환각의 여지다. plausible은 높은데 correct가 낮다면, 모델이 “그럴듯하지만 틀린” 답을 자신 있게 내고 있다는 신호다.

CTI-ATE — ATT&CK 기법 추출

악성코드 설명 텍스트(60개 인스턴스: 2024년 이후 30개 + 이전 30개, 총 397개 고유 기법)에서 등장하는 ATT&CK 기법 ID를 다중 라벨로 추출한다. 한 텍스트에 여러 기법이 섞여 있으므로 지표는 Micro-F1이다.

\[\text{F1} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}\]

2024년 전후로 데이터를 나눈 건, 학습 데이터 컷오프 이후의 신규 악성코드에서 성능이 떨어지는지 — 즉 진짜 추론인지 암기인지 — 를 보기 위한 설계다.

평가 방법론

Zero-shot 프롬프트: 각 과제마다 “사이버 보안 전문가로서 답하라”는 식의 zero-shot 템플릿을 쓴다. few-shot이나 fine-tuning 없이 모델의 내재 능력을 본다.
자동 채점: MCQ·RCM은 라벨 일치, VSP는 수치 편차(MAD), ATE는 기법 ID 집합의 Micro-F1로 기계 채점한다. TAA만 행위자 명칭의 의미 일치를 따져 correct/plausible로 나눈다.
추론 프롬프트의 효과: 논문은 chain-of-thought 류의 명시적 추론 유도가 일관된 성능 향상을 주지 못했다고 보고한다. 이는 과제가 추론보다 기억된 매핑에 의존하는 경향을 시사한다.

Experiments

평가 모델은 다섯 개다 — GPT-4 (gpt-4-turbo), GPT-3.5 (gpt-3.5-turbo), Gemini-1.5, Llama 3 70B, Llama 3 8B. 다음이 전체 결과표다(MAD는 낮을수록 좋고, 나머지는 높을수록 좋다).

모델	CTI-MCQ (Acc)	CTI-RCM (Acc)	CTI-VSP (MAD↓)	CTI-ATE (F1)	TAA Correct	TAA Plausible
GPT-4	71.0	72.0	1.31	0.639	52%	86%
GPT-3.5	54.1	67.2	1.57	0.311	44%	62%
Gemini-1.5	65.4	66.6	1.09	0.461	38%	74%
Llama 3 70B	65.7	65.9	1.83	0.472	52%	80%
Llama 3 8B	61.3	44.7	1.91	0.156	28%	36%

읽는 법:

GPT-4가 대체로 선두: MCQ·RCM·ATE에서 1위. 단 CVSS 예측은 Gemini-1.5가 MAD 1.09로 가장 정확하다 — 과제별로 강자가 갈린다.
객관식(MCQ)은 상위 모델이 65~71%로 준수하지만, 만점과는 거리가 멀다. “안다”의 수준이 압도적이지는 않다.
CTI-ATE는 전반적으로 낮다: 최고가 GPT-4의 F1 0.639, Llama 3 8B는 0.156으로 붕괴. 다중 기법을 빠짐없이 정확히 뽑는 게 가장 어렵다.
TAA의 correct↔plausible 간극: GPT-4는 correct 52% / plausible 86%. 34%p의 간극이 곧 “그럴듯하지만 틀린” 답의 비중이다. Gemini는 38% / 74%로 간극이 더 크다.
규모 효과: Llama 3 70B는 대부분 GPT-3.5~Gemini급. 8B는 RCM(44.7%)·ATE(0.156)에서 급락해, 작은 모델은 정밀 매핑·추출을 사실상 못 한다.

CVSS 예측의 체계적 오류

논문은 CVSS 벡터 중 Privileges Required, Scope, Confidentiality/Integrity Impact 메트릭에서 오류가 집중된다고 분석한다. 이유는 CVE 설명문 자체가 이 정보를 충분히 담지 않기 때문이다 — 즉 모델의 한계 이전에 입력 정보의 한계다. 또한 모델들은 과소평가보다 과대평가(overestimation) 경향이 강했다. 심각도를 부풀려 보는 것은 SOC에서 alert fatigue를 키운다.

분석 — 지식과 추론의 간극

CTIBench의 결과를 한 문장으로 요약하면 “객관식 지식은 쓸 만하지만, 구조화된 정밀 추론은 신뢰하기 이르다”이다.

MCQ(아는가) vs RCM/ATE(매핑할 수 있는가): GPT-4도 MCQ 71%에서 ATE F1 0.64로 내려간다. 개념을 알아도 비정형 텍스트를 정확한 라벨 집합으로 변환하는 능력은 별개다.
귀속(TAA)이 가장 위험한 실패 모드: 자유 생성이라 환각이 그대로 출력된다. correct↔plausible 간극이 그 증거다. 실무에서 잘못된 APT 귀속은 지정학적·법적 파장까지 낳을 수 있어, 틀린 자신감이 가장 비싼 비용을 부른다.
암기 vs 진짜 이해: 추론 프롬프트가 도움이 안 됐다는 사실, 그리고 2024 전후 ATE 분할은 모두 “이 능력의 상당 부분이 학습된 매핑의 회상”임을 시사한다.

이는 CAIBench의 “지식 ~70% vs 실전 능력 급락”과 같은 결의 발견이다. 아는 것과 정확히 추론·적용하는 것은 다르다. 같은 패턴을 SecBench의 지식형 평가와 비교해 보면 더 분명하다.

한계

상당 부분이 정적 QA·분류: 실제 위협 조사처럼 도구를 호출하고 여러 출처를 교차 검증하는 다단계·상호작용 작업은 다루지 못한다(후속 ExCyTIn-Bench, AthenaBench 등이 보강).
시의성: CTI 지식은 빠르게 갱신된다. CVE·APT 정보는 시간이 지나면 일부 정답이 바뀌고, 신규 모델의 학습 컷오프와 데이터 신선도가 점수를 흔든다.
소규모 과제: TAA 50건, ATE 60건은 통계적으로 작다. 몇 건 차이가 백분율을 크게 흔들 수 있어, 순위를 절대시하기 어렵다.
입력 정보 자체의 한계: CVSS 오류의 상당 부분은 CVE 설명문 부족 탓이므로, 모델 능력과 데이터 품질을 분리해 해석해야 한다.

의의 — 방어 측 평가의 정착

공격 일색이던 사이버 보안 LLM 평가에 방어/분석(CTI) 축을 세운 대표 벤치마크다. NeurIPS 2024 Datasets & Benchmarks 트랙 채택(Spotlight).
실무 표준에 직접 연결: CVE→CWE, CVSS, ATT&CK는 모든 SOC가 쓰는 어휘다. CTIBench 점수는 곧 “SOC 자동화에 LLM을 얼마나 맡길 수 있는가”의 대리 지표가 된다.
이 시리즈의 사이버 보안 LLM 개관에서 본 구도 — 공격을 재는 Cybench, 위험·역량을 재는 CyberSecEval — 에 CTIBench는 방어자 업무의 자동화 가능성이라는 빠진 조각을 채운다.

Conclusion

CTIBench는 “LLM이 위협 분석가를 도울 수 있는가”를 다섯 과제로 정량화한다. 결론은 균형 잡혀 있다 — 객관식 지식(65~71%)은 쓸 만하지만, CVE→CWE 매핑·CVSS 예측·행위자 귀속처럼 정밀 추론이 필요한 곳에서는 GPT-4조차 신뢰하기 이르다. 특히 자유 생성 귀속의 correct↔plausible 간극(GPT-4 52%→86%)은 CTI에서 가장 위험한 실패 모드인 그럴듯한 환각을 정면으로 드러낸다.

공격을 재는 벤치마크들과 함께 봐야 사이버 보안 LLM의 전체 그림이 완성된다. CTIBench는 그 방어 측 절반을 표준화했다.

이어서 읽기: 사이버 보안 LLM 개관 · CyberSecEval · SecBench · Cybench · Claude Mythos

참고 문헌

CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence (arXiv 2406.07599) — Alam, Bhusal, Nguyen, Rastogi (RIT), NeurIPS 2024 (Spotlight)
CTIBench (NeurIPS 2024 Proceedings PDF)
CTIBench GitHub (xashru/cti-bench)
MITRE ATT&CK — 전술·기법 지식베이스
CWE (Common Weakness Enumeration) — 약점 유형 분류
CVSS v3.1 Specification (FIRST) — 심각도 점수 체계
NVD (National Vulnerability Database) — CVE 설명·메타데이터
AthenaBench: A Dynamic Benchmark for Evaluating LLMs in CTI (arXiv 2511.01144) — 후속 동적 벤치마크