広告
主要なAIベンチマークの意味・評価基準・トップモデルを解説します
Massive Multitask Language Understanding
HumanEval Code Generation
Graduate-Level Google-Proof Q&A
Mathematics Problem Solving
Instruction Following Evaluation
Software Engineering Benchmark