広告
JGLUE・Global-MMLU-Liteなど日本語ベンチマークに基づくAIモデルの日本語性能ランキング
| # | Model | Tier | Global-MMLU | JGLUE | JA-Alpaca | 総合 ↓ |
|---|---|---|---|---|---|---|
| 1 | Gemini 2.5 Pro Google | S | 94 | 92 | 91 | 92.3 |
| 2 | Claude Opus 4 Anthropic | S | 93 | 91 | 90 | 91.3 |
| 3 | Claude Sonnet 4 Anthropic | S | 93 | 90 | 89 | 90.7 |
| 4 | GPT-4o OpenAI | A | 90 | 89 | 88 | 89.0 |
| 5 | GPT-4.1 OpenAI | A | 91 | 88 | 87 | 88.7 |
| 6 | Gemini 2.0 Flash Google | A | 88 | 86 | 85 | 86.3 |
| 7 | DeepSeek V3 DeepSeek | B | 85 | 84 | 83 | 84.0 |
| 8 | Qwen 2.5 72B Qwen | B | 86 | 85 | 80 | 83.7 |
| 9 | GPT-4o mini OpenAI | B | 82 | 80 | 79 | 80.3 |
| 10 | Mistral Large Mistral | C | 82 | 76 | 73 | 77.0 |
| 11 | Claude Haiku 4 Anthropic | C | 78 | 77 | 75 | 76.7 |
| 12 | Llama 3.1 70B Meta | C | 80 | 75 | 74 | 76.3 |
英語で高スコアのモデルでも、日本語では性能が大幅に低下することがあります。専用ベンチマークで実力を見極めましょう。
敬語、季節の表現、ビジネスマナーなど、日本語固有の文化的要素を正しく理解できるかを評価します。
JGLUEは実際のNLPタスク(感情分析、文ペア分類、質問応答)で評価。学術的スコア以上に実用的です。
各社が日本語対応を強化中。Google Geminiは日本語で特に高スコア、Claudeも急速に改善しています。