AIモデルベンチマーク比較

AIモデルの実力を客観的に評価するベンチマークスコアを一覧比較。コーディング、数学、推論、知識など分野別の強み弱みがわかります。

分野別比較

GPT-5 vs Claude Sonnet 5

#	モデル	MMLU（総合知識）	HumanEval（コード生成）	SWE-Bench（実務コーディング）	GPQA Diamond（大学院レベル科学）	MATH-500（数学）	AIME（高難度数学）	JGLUE（日本語理解）	Avg
1	Claude Sonnet 5Anthropic	91.2	96.3	82.1	68.5	85.7	76.8	88.3	84.1
2	GPT-5OpenAI	93.4	95.1	52.0	72.8	89.3	83.5	85.2	81.6
3	Gemini 2.5 ProGoogle	90.8	89.5	45.2	62.1	91.1	86.7	84.8	78.6
4	Claude Sonnet 4Anthropic	88.9	93.7	72.7	59.4	78.3	67.2	86.5	78.1
5	DeepSeek V3DeepSeek	87.1	88.4	42.0	55.3	90.2	96.0	78.3	76.8
6	GPT-4oOpenAI	88.7	90.2	38.4	53.6	76.6	63.6	82.1	70.5
7	Llama 4 MaverickMeta	85.2	86.1	35.8	48.7	73.5	58.2	72.1	65.7
8	Mistral LargeMistral AI	84.0	85.3	32.1	47.2	71.8	55.0	76.5	64.6

スコア: ソース — 最終更新: 2025-05