広告
日本語タスクでのAIモデル性能を独自評価 — 翻訳・敬語・文化知識・日本語コーディング
全カテゴリの平均スコア
Claude Opus 4
Anthropic
Claude Sonnet 4
Anthropic
GPT-4o
OpenAI
GPT-4.1
OpenAI
Gemini 2.5 Pro
Claude Haiku 4
Anthropic
GPT-4o mini
OpenAI
Gemini 2.0 Flash
DeepSeek Chat
DeepSeek
Llama 4 70B
Meta