Skip to main content

Claude Code ガイド主要モデル比較 AI診断リーダーボード料金比較モデル比較ブログ

ホーム
/jp-benchmark

広告

プロダクト

リーダーボード
料金比較
モデル比較
コスパ最適化
AIアリーナ
プロダクト
Best AI for Coding

リソース

ブログ
ニュース
用語集
ガイド
AI診断

運営

このサイトについて
お問い合わせ
更新履歴

法務

プライバシーポリシー
利用規約

AI ModelNavi

400以上のAIモデルのベンチマーク・料金・性能を比較。あなたに最適なAIが見つかります。

データはOpenRouter APIから取得しています

料金やベンチマークは変動する場合があります。購入前に必ずご確認ください。

© 2026 AI Model Navi

日本語AIベンチマーク

日本語タスクでのAIモデル性能を独自評価 — 翻訳・敬語・文化知識・日本語コーディング

全カテゴリの平均スコア

1

Claude Opus 4

Anthropic

92

翻訳93

敬語92

文化知識90

日本語コード92

2

Claude Sonnet 4

Anthropic

88

翻訳90

敬語88

文化知識85

日本語コード90

3

GPT-4o

OpenAI

87

翻訳92

敬語85

文化知識88

日本語コード82

4

GPT-4.1

OpenAI

87

翻訳91

敬語86

文化知識87

日本語コード85

5

Gemini 2.5 Pro

Google

86

翻訳94

敬語82

文化知識90

日本語コード78

6

Claude Haiku 4

Anthropic

81

翻訳82

敬語80

文化知識78

日本語コード82

7

GPT-4o mini

OpenAI

80

翻訳85

敬語78

文化知識80

日本語コード75

8

Gemini 2.0 Flash

Google

79

翻訳88

敬語75

文化知識82

日本語コード72

9

DeepSeek Chat

DeepSeek

73

翻訳78

敬語65

文化知識70

日本語コード80

10

Llama 4 70B

Meta

64

翻訳72

敬語55

文化知識60

日本語コード70

評価方法

• 翻訳: 50の英日・日英翻訳タスクの品質を専門家が5段階評価
• 敬語: ビジネスメール・接客・電話応対の敬語使用の正確性
• 文化知識: 日本の祝日・慣習・社会制度に関する100の質問
• 日本語コーディング: 日本語変数名・コメントを含むコーディングタスク