広告
AIモデルの実力を客観的に評価するベンチマークスコアを一覧比較。コーディング、数学、推論、知識など分野別の強み弱みがわかります。
GPT-5 vs Claude Sonnet 5
| # | モデル | MMLU(総合知識) | HumanEval(コード生成) | SWE-Bench(実務コーディング) | GPQA Diamond(大学院レベル科学) | MATH-500(数学) | AIME(高難度数学) | JGLUE(日本語理解) | Avg |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Claude Sonnet 5Anthropic | 91.2 | 96.3 | 82.1 | 68.5 | 85.7 | 76.8 | 88.3 | 84.1 |
| 2 | GPT-5OpenAI | 93.4 | 95.1 | 52.0 | 72.8 | 89.3 | 83.5 | 85.2 | 81.6 |
| 3 | Gemini 2.5 ProGoogle | 90.8 | 89.5 | 45.2 | 62.1 | 91.1 | 86.7 | 84.8 | 78.6 |
| 4 | Claude Sonnet 4Anthropic | 88.9 | 93.7 | 72.7 | 59.4 | 78.3 | 67.2 | 86.5 | 78.1 |
| 5 | DeepSeek V3DeepSeek | 87.1 | 88.4 | 42.0 | 55.3 | 90.2 | 96.0 | 78.3 | 76.8 |
| 6 | GPT-4oOpenAI | 88.7 | 90.2 | 38.4 | 53.6 | 76.6 | 63.6 | 82.1 | 70.5 |
| 7 | Llama 4 MaverickMeta | 85.2 | 86.1 | 35.8 | 48.7 | 73.5 | 58.2 | 72.1 | 65.7 |
| 8 | Mistral LargeMistral AI | 84.0 | 85.3 | 32.1 | 47.2 | 71.8 | 55.0 | 76.5 | 64.6 |
スコア: ソース — 最終更新: 2025-05