-
SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
SWE-bench 논문 리뷰 — 실 레포의 실 GitHub 이슈로 LLM agent를 평가하는 sandboxed execution benchmark
-
TravelPlanner: A Benchmark for Real-World Planning with Language Agents
TravelPlanner 논문 리뷰 — multi-constraint planning에서 GPT-4도 1% 미만, agent planning의 한계 노출
-
MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents
MedAgentBench 논문 리뷰 — Stanford EHR 데이터 + FHIR 환경에서 의료 LLM agent를 평가하는 도메인 특화 벤치마크
-
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
OSWorld 논문 리뷰 — 실제 OS 위에서 마우스·키보드로 작업하는 GUI 에이전트를 execution-based로 평가하는 벤치마크. 인간 72% vs 최고 모델 12%
-
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
Red-Teaming 시리즈 #26 (마지막) — Llama-2-7B를 input/output safety classifier로 fine-tune, OpenAI Moderation API를 능가하는 공개 가드레일 (Inan et al., Meta, 2023)