CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence

CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence (Alam, Bhusal, Nguyen, Rastogi, RIT, NeurIPS 2024)

Introduction

지금까지의 Cybench·CVE-Bench공격(offense) 능력을 다뤘다면, CTIBench는 방어자·분석가의 일 — 위협 인텔리전스(Cyber Threat Intelligence, CTI) — 를 평가한다. SOC 분석가가 매일 하는 작업이다.

  • 새 취약점이 어떤 약점 유형(CWE)에 속하는가?
  • 이 취약점의 심각도(CVSS)는 얼마인가?
  • 이 공격은 어떤 위협 행위자(threat actor)의 소행인가?
  • 이 보고서에 등장하는 공격 기법을 MITRE ATT&CK로 어떻게 매핑하는가?

이런 작업은 방대한 도메인 지식과 추론을 요구하며, 환각(hallucination)이 치명적이다(잘못된 귀속·심각도는 대응을 그르친다). CTIBench는 LLM이 이 영역에서 얼마나 신뢰할 만한지를 체계적으로 측정한다.

데이터셋 구성

CTIBench는 약 5,610개 샘플로, 다섯 개 하위 과제로 구성된다.

과제 내용 형식
CTI-MCQ CTI 지식 객관식 (표준·프레임워크·개념) 객관식
CTI-RCM CVE → CWE 매핑 (취약점의 근본 원인 분류) 생성/분류
CTI-VSP CVSS 점수 예측 (심각도 정량화) 회귀/수치
CTI-TAA 위협 행위자 귀속 (위협 보고서로부터 행위자 식별) 생성
CTI-ATE ATT&CK 기법 추출 (텍스트에서 공격 기법 매핑) 추출/분류

CTI-MCQ가 “아는가”를 본다면, RCM/VSP/TAA/ATE는 “구조화된 추론을 할 수 있는가“를 본다. 이 구분이 핵심이다.

Experiments

평가 방식

GPT-4, GPT-3.5, Gemini, Llama 계열 등 다수 LLM을 평가한다. 과제별로 정답(CWE 라벨, CVSS 점수, ATT&CK 기법 ID 등)과 비교하며, CVSS는 수치 오차로, 분류는 정확도/F1로 채점한다.

핵심 발견

  • 지식(MCQ)은 비교적 강하지만, 추론·매핑 과제는 약하다. 일반적으로 GPT-4가 선두지만, CVE→CWE 매핑이나 행위자 귀속처럼 세밀한 도메인 추론에서는 모델 간·과제 간 편차가 크다.
  • 환각 위험: 자유생성 과제(행위자 귀속 등)에서 그럴듯하지만 틀린 답이 나온다 — CTI에서 가장 위험한 실패 모드.
  • 이는 CAIBench의 “지식 ~70% vs 실전 능력 급락”과 같은 결의 발견이다. 아는 것과 정확히 추론하는 것은 다르다.

의의와 한계

의의

  • 공격 일색이던 사이버 보안 LLM 평가에 방어/분석(CTI) 축을 세운 대표 벤치마크. NeurIPS 2024 D&B.
  • CVE→CWE, CVSS, ATT&CK 등 실무 표준에 직접 연결되어 SOC 자동화 평가에 바로 쓰인다.

한계

  • 상당 부분이 정적 QA·분류라, 실제 위협 조사처럼 다단계·상호작용하는 작업은 후속(ExCyTIn-Bench 등)이 보강.
  • CTI 지식은 시의성이 강해 시간이 지나면 일부 정답이 갱신된다.

Conclusion

CTIBench는 “LLM이 위협 분석가를 도울 수 있는가”를 다섯 과제로 정량화해, “지식은 쓸 만하지만 정밀 추론·귀속은 아직 신뢰하기 이르다”는 균형 잡힌 답을 제시한다. CyberSecEval이 위험·역량을, Cybench가 공격을 잰다면, CTIBench는 방어자 업무의 자동화 가능성을 잰다. 공격과 방어 양쪽을 함께 봐야 사이버 보안 LLM의 전체 그림이 완성된다.

이어서 읽기: 사이버 보안 LLM 개관 · CyberSecEval · SecBench · Claude Mythos

참고 문헌




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 사이버 보안에서의 LLM: 공격·방어·평가의 지형
  • Claude Mythos와 사이버 보안 LLM: 자율 취약점 발견의 변곡점
  • Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
  • CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities
  • AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses