CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence
CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence (Alam, Bhusal, Nguyen, Rastogi, RIT, NeurIPS 2024)
Introduction
지금까지의 Cybench·CVE-Bench가 공격(offense) 능력을 다뤘다면, CTIBench는 방어자·분석가의 일 — 위협 인텔리전스(Cyber Threat Intelligence, CTI) — 를 평가한다. SOC 분석가가 매일 하는 작업이다.
- 새 취약점이 어떤 약점 유형(CWE)에 속하는가?
- 이 취약점의 심각도(CVSS)는 얼마인가?
- 이 공격은 어떤 위협 행위자(threat actor)의 소행인가?
- 이 보고서에 등장하는 공격 기법을 MITRE ATT&CK로 어떻게 매핑하는가?
이런 작업은 방대한 도메인 지식과 추론을 요구하며, 환각(hallucination)이 치명적이다(잘못된 귀속·심각도는 대응을 그르친다). CTIBench는 LLM이 이 영역에서 얼마나 신뢰할 만한지를 체계적으로 측정한다.
데이터셋 구성
CTIBench는 약 5,610개 샘플로, 다섯 개 하위 과제로 구성된다.
| 과제 | 내용 | 형식 |
|---|---|---|
| CTI-MCQ | CTI 지식 객관식 (표준·프레임워크·개념) | 객관식 |
| CTI-RCM | CVE → CWE 매핑 (취약점의 근본 원인 분류) | 생성/분류 |
| CTI-VSP | CVSS 점수 예측 (심각도 정량화) | 회귀/수치 |
| CTI-TAA | 위협 행위자 귀속 (위협 보고서로부터 행위자 식별) | 생성 |
| CTI-ATE | ATT&CK 기법 추출 (텍스트에서 공격 기법 매핑) | 추출/분류 |
CTI-MCQ가 “아는가”를 본다면, RCM/VSP/TAA/ATE는 “구조화된 추론을 할 수 있는가“를 본다. 이 구분이 핵심이다.
Experiments
평가 방식
GPT-4, GPT-3.5, Gemini, Llama 계열 등 다수 LLM을 평가한다. 과제별로 정답(CWE 라벨, CVSS 점수, ATT&CK 기법 ID 등)과 비교하며, CVSS는 수치 오차로, 분류는 정확도/F1로 채점한다.
핵심 발견
- 지식(MCQ)은 비교적 강하지만, 추론·매핑 과제는 약하다. 일반적으로 GPT-4가 선두지만, CVE→CWE 매핑이나 행위자 귀속처럼 세밀한 도메인 추론에서는 모델 간·과제 간 편차가 크다.
- 환각 위험: 자유생성 과제(행위자 귀속 등)에서 그럴듯하지만 틀린 답이 나온다 — CTI에서 가장 위험한 실패 모드.
- 이는 CAIBench의 “지식 ~70% vs 실전 능력 급락”과 같은 결의 발견이다. 아는 것과 정확히 추론하는 것은 다르다.
의의와 한계
의의
- 공격 일색이던 사이버 보안 LLM 평가에 방어/분석(CTI) 축을 세운 대표 벤치마크. NeurIPS 2024 D&B.
- CVE→CWE, CVSS, ATT&CK 등 실무 표준에 직접 연결되어 SOC 자동화 평가에 바로 쓰인다.
한계
- 상당 부분이 정적 QA·분류라, 실제 위협 조사처럼 다단계·상호작용하는 작업은 후속(ExCyTIn-Bench 등)이 보강.
- CTI 지식은 시의성이 강해 시간이 지나면 일부 정답이 갱신된다.
Conclusion
CTIBench는 “LLM이 위협 분석가를 도울 수 있는가”를 다섯 과제로 정량화해, “지식은 쓸 만하지만 정밀 추론·귀속은 아직 신뢰하기 이르다”는 균형 잡힌 답을 제시한다. CyberSecEval이 위험·역량을, Cybench가 공격을 잰다면, CTIBench는 방어자 업무의 자동화 가능성을 잰다. 공격과 방어 양쪽을 함께 봐야 사이버 보안 LLM의 전체 그림이 완성된다.
이어서 읽기: 사이버 보안 LLM 개관 · CyberSecEval · SecBench · Claude Mythos
참고 문헌
Enjoy Reading This Article?
Here are some more articles you might like to read next: