日本語性能ランキング

JGLUE・Global-MMLU-Liteなど日本語ベンチマークに基づくAIモデルの日本語性能ランキング

#	Model	Tier	Global-MMLU	JGLUE	JA-Alpaca	総合 ↓
1	Gemini 2.5 Pro Google	S	94	92	91	92.3
2	Claude Opus 4 Anthropic	S	93	91	90	91.3
3	Claude Sonnet 4 Anthropic	S	93	90	89	90.7
4	GPT-4o OpenAI	A	90	89	88	89.0
5	GPT-4.1 OpenAI	A	91	88	87	88.7
6	Gemini 2.0 Flash Google	A	88	86	85	86.3
7	DeepSeek V3 DeepSeek	B	85	84	83	84.0
8	Qwen 2.5 72B Qwen	B	86	85	80	83.7
9	GPT-4o mini OpenAI	B	82	80	79	80.3
10	Mistral Large Mistral	C	82	76	73	77.0
11	Claude Haiku 4 Anthropic	C	78	77	75	76.7
12	Llama 3.1 70B Meta	C	80	75	74	76.3

なぜ日本語専用ベンチマークが重要か

英語で高スコアのモデルでも、日本語では性能が大幅に低下することがあります。専用ベンチマークで実力を見極めましょう。

敬語、季節の表現、ビジネスマナーなど、日本語固有の文化的要素を正しく理解できるかを評価します。

JGLUEは実際のNLPタスク（感情分析、文ペア分類、質問応答）で評価。学術的スコア以上に実用的です。

各社が日本語対応を強化中。Google Geminiは日本語で特に高スコア、Claudeも急速に改善しています。