-
HH-RLHF Red-Team Attempts: Anthropic의 38,961건 레드팀 대화 데이터셋
Red-Teaming 시리즈 #17 — Anthropic이 공개한 red-team 대화 데이터셋의 구조·라벨·활용 (Ganguli et al., Anthropic, 2022)
-
AdvBench: LLM 공격 평가의 사실상 표준이 된 유해 행동 데이터셋
Red-Teaming 시리즈 #16 — GCG 논문이 만든 harmful strings/behaviors 벤치마크와 그 영향·한계 (Zou et al., CMU, 2023)
-
에이전트란 무엇인가: 지능형 에이전트의 고전 정의부터 LLM 에이전트까지
agent 벤치마크 시리즈의 도입부 — Russell & Norvig의 지능형 에이전트 정의(합리성, 기대효용, PEAS, MDP/POMDP, 5유형, 환경 속성)부터 Lilian Weng·Anthropic의 LLM 에이전트 해부까지, 수식과 함께
-
AgentBench: Evaluating LLMs as Agents
AgentBench 논문 리뷰 — LLM as Agent 평가 패러다임을 정립한 8환경 multi-turn 벤치마크
-
GAIA: a benchmark for General AI Assistants
GAIA 논문 리뷰 — 인간 92% vs GPT-4 15%, AI assistant 평가의 reality check