日本語 LLM を選ぶとき、「英語のベンチマークでは強いが日本語ではどうか」は避けて通れない問いだ。しかし、日本語に特化した評価指標やリーダーボードは複数存在し、それぞれ測っているものが違う。
この記事では、2026 年 3 月時点で公開されている日本語 LLM のベンチマークとリーダーボードを横断的に集めた。
リーダーボード
日本語 LLM を評価・ランク付けしている主要なリーダーボードは、現時点で 6 つ確認できる。
Nejumi Leaderboard 4(W&B Japan)
Weights & Biases Japan が運営する、日本語 LLM 評価で最も包括的なリーダーボード。Microsoft for Startups の専用 GPU クラスタ上で評価を実行している。
評価の 2 軸:
- GLP (汎用的言語性能): 意味解析、構文解析、推論、知識、翻訳、要約、コード生成など
- ALT (アライメント): 安全性、指示追従、ハルシネーション耐性、ロバスト性
主な評価タスク: JMMLU, JMMLU-Pro, Japanese MT-Bench, JNLI, JaNLI, JSeM, JSICK, JCoLA, JBLiMP, JHumanEval, SWE-Bench Verified, BFCL(関数呼び出し), ARC-AGI, ARC-AGI-2, HLE-JA, HalluLens, JBBQ, JTruthfulQA, M-IFEval, CommonsenseMoralityJA
特徴: JMMLU を 3 パターン(通常・記号置換・不正解選択)でテストし、ロバスト性を確認する。推論タスクは 2 倍の重みで加重スコアを算出。
最新データ (2026 年 3 月 6 日、Qualiteg 分析より):
| 順位 | モデル | 総合スコア | 種別 |
|---|---|---|---|
| 1 | Gemini 3.1 Pro Preview | 0.8430 | API |
| 2 | Claude Opus 4.6 | 0.8394 | API |
| 3 | GPT-5.2 (xhigh) | 0.8285 | API |
| 4 | Claude Sonnet 4.6 | 0.8230 | API |
| 5 | Qwen3.5-397B-A17B | 0.8191 | オープン |
| 6 | Gemini 3 Flash Preview | 0.8155 | API |
| 7 | Gemini 3 Pro Preview | 0.8134 | API |
| 8 | Qwen3.5-122B-A10B | 0.8094 | オープン |
| 9 | GPT-5.1 (high) | 0.8085 | API |
| 10 | Claude Opus 4.5 (thinking) | 0.8064 | API |
| 11 | Qwen3.5-27B | 0.8049 | オープン |
2025 年 12 月時点で 0.80 超えは 4 モデルだったが、3 ヶ月後の 2026 年 3 月には 11 モデルに急増した。Qwen3.5 シリーズがオープンウェイト初の 0.80 突破を達成している。
日本産モデルのスコア (Nejumi 4 に登場するもの):
| モデル | スコア | 開発元 |
|---|---|---|
| NVIDIA-Nemotron-Nano-9B-v2-Japanese | 0.7111 | NVIDIA(日本語特化) |
| rinna/qwq-bakeneko-32b | 0.6910 | rinna |
| ABEJA-Qwen2.5-32b-Japanese-v1.0 | 0.6866 | ABEJA |
| GPT-OSS-Swallow-20B-RL-v0.1 | 0.6424 | 東京科学大 |
| Gemma-2-Llama-Swallow-27b-it-v0.1 | 0.6208 | 東京科学大 |
| cyberagent/calm3-22b-chat | 0.5705 | CyberAgent |
総合 Top 50 に日本産モデルは入っていない。最上位の NVIDIA Nemotron Nano 9B Japanese(0.7111)も、11 位の Qwen3.5-27B(0.8049)とは大きな差がある。
Swallow LLM Leaderboard v2(東京科学大)
swallow-llm.github.io / GitHub
東京科学大学(旧東京工業大学)の Swallow プロジェクトが運営。v2 は 2025 年 8 月にリリースされた。日本語タスクと英語タスクを並列で評価するため、同一モデルの日英性能差を直接比較できるのが最大の特徴。
日本語タスク (5 種): JamC-QA, MMLU-ProX, GPQA, MATH-100, JHumanEval
英語タスク (6 種): HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench
Japanese MT-Bench / English MT-Bench も別途実施(GPT-4o による評価)。
主要モデルの日英スコア比較:
| モデル | 日本語タスク平均 | 英語タスク平均 | JP MT-Bench | 備考 |
|---|---|---|---|---|
| GPT-5 | 0.891 | 0.875 | — | 日英ほぼ均衡 |
| Qwen3-235B-A22B-Thinking | 0.823 | — | — | オープン最高 |
| GPT-OSS Swallow 120B | 0.642 | 0.804 | 0.916 | 英語と日本語で 0.16 の差 |
| Qwen3 Swallow 32B | 0.609 | 0.792 | 0.894 | |
| GPT-OSS Swallow 20B | 0.606 | 0.788 | 0.872 | 20B 以下で最高 |
| Qwen3 Swallow 8B | 0.557 | 0.694 | 0.844 | 8B 以下で最高 |
注目すべきは GPT-OSS Swallow 120B の乖離だ。日本語知識タスクは 0.642 だが、Japanese MT-Bench(会話品質)では 0.916 で GPT-5.1 Thinking(0.897)を上回る。流暢な日本語生成と日本語での深い知識は別物であることがデータに表れている。
Swallow プロジェクトはリーダーボード運営と同時にモデル開発も行っており、ベースモデルに日本語の継続事前学習(CPT)を施した Swallow 系モデルを公開している。CPT により JamC-QA で +3〜13 ポイントの改善が一貫して見られる。
Open Japanese LLM Leaderboard(LLM-jp / Hugging Face)
国立情報学研究所(NII)の LLM-jp プロジェクトと Hugging Face の共同運営。2024 年 11 月に公開。評価ツールは llm-jp-eval v1.14.1、推論は mdx(日本の研究用計算基盤)上の vLLM(高速推論エンジン)で実行。
評価タスク (16 種以上、4-shot = 4 つの回答例を提示して解かせる形式): Jamp(時制 NLI), JEMHopQA(マルチホップ QA), JCommonsenseQA(常識推論), chABSA(金融ドメイン感情分析), mbpp-ja(Python コード), mawps(数学文章題), JMMLU(57 科目), XL-Sum(ニュース要約)ほか
特徴: オープンウェイトモデルに特化。全モデルで一貫した条件(同一 GPU、同一推論エンジン)で評価。
傾向: 全モデル共通の弱点として金融ドメイン (chABSA)、コード生成 (mbpp-ja)、要約 (XL-Sum)のスコアが低い。逆に、日本企業開発モデルは倫理・文化的推論 (JCommonsenseMorality)で海外モデルより高い傾向がある。
※ 2026 年 3 月時点ではインフラ障害でリーダーボードの表示が不安定な場合がある。
Artificial Analysis Japanese Multilingual Index
artificialanalysis.ai/models/multilingual/japanese
Artificial Analysis が Global-MMLU-Lite の日本語スコアを用いてランキング。109 モデル中 13 モデルの日本語スコアを公開。
| 順位 | モデル | 日本語スコア |
|---|---|---|
| 1 | Gemini 3.1 Pro Preview | 94 |
| 2 | Claude Opus 4.6 | 93 |
| 3 | Claude Sonnet 4.6 | 93 |
対象が API モデル中心で、オープンウェイトや日本産モデルのカバレッジは限定的。ただし速度・コスト・レイテンシとの横断比較ができる点が独自の価値。
Rakuda Benchmark(Yuzu AI)
日本の文化・歴史・社会・政治・地理に関する 40 問のオープンエンド質問で評価する。正解がないため、LLM-as-Judge によるペアワイズ比較(モデル同士の一対一対決)で Bradley-Terry スコア(対戦結果から算出するレーティング指標)を算出。日本固有の知識と文化的文脈を直接問う、唯一のベンチマーク。
ELYZA Tasks 100
ELYZA が公開する、ビジネスメール作成・要約・翻訳・プログラミングなど 100 タスクの自由記述評価。GPT-4 が 5 段階で採点する。正解のない生成タスクが中心で、上記の JGLUE のような正誤判定型ベンチマークとは性質が異なる。ELYZA-Llama-3-70B がこの評価で GPT-4 や Claude 3 Sonnet を上回ったと報告されている。
主要ベンチマーク(データセット)
リーダーボードの裏側で使われている個別のベンチマーク(データセット)は、同じ名前でもリーダーボードによって使い方が異なることがある。
JGLUE(日本語汎用言語理解評価)
Yahoo Japan と早稲田大学(河原研)が開発した、日本語版 GLUE。最も基礎的な日本語 NLU ベンチマークとして広く採用されている。
| タスク | 内容 |
|---|---|
| MARC-ja | テキスト分類(Amazon レビューの感情分析) |
| JSTS | 文意類似度(Semantic Textual Similarity) |
| JNLI | 自然言語推論(含意・矛盾・中立) |
| JSQuAD | 読解(SQuAD 1.1 ベース、Wikipedia 記事) |
| JCommonsenseQA | 常識推論(5 択、ConceptNet ベース) |
AI Novelist の Spiko が自社サイトで公開しているスコア(自社計測)では、JSQuAD 0-shot(例示なしで解答させる形式)で 0.955、JCommonsenseQA 0-shot で 0.982 を達成しており、これはフロンティアモデルと比較しても高い水準だ。
JMMLU / JMMLU-Pro
MMLU の日本語版。53〜57 科目の知識テスト。Nejumi 4 では通常版に加え、記号を置換したパターンと不正解を選ばせるパターンの 3 パターンでテストし、暗記による過学習(ベンチマーク汚染)への耐性を確認している。JMMLU-Pro は高難度版。
AI Novelist の Spiko-Max 202510 は MMLU-JA-JP(OpenAI 版)で 0.912 を記録しており、o3-high(0.890)や GPT-4.5(0.869)を上回る(いずれも自社サイトでの公開値)。
Japanese MT-Bench
8 カテゴリ(コーディング、抽出、人文、数学、推論、ロールプレイ、STEM、ライティング)のマルチターン対話 80 問。日本語での対話品質を測る。GPT-4 が審判。
Nejumi 4 と Swallow v2 の両方で使われている。Swallow のデータでは GPT-OSS Swallow 120B が 0.916 で GPT-5.1 Thinking(0.897)を上回った。
その他の主要ベンチマーク
| ベンチマーク | 内容 | 使用リーダーボード |
|---|---|---|
| JHumanEval | Python コード生成(日本語指示) | Nejumi, Swallow |
| M-IFEval-Ja | 日本語での指示追従(フォーマット準拠など) | Nejumi, Swallow |
| HalluLens | ハルシネーション耐性 | Nejumi |
| JBBQ | バイアス評価 | Nejumi |
| JTruthfulQA | 事実性(誤情報への耐性) | Nejumi |
| CommonsenseMoralityJA | 日本の常識的倫理判断 | Nejumi |
| HLE-JA | Humanity’s Last Exam 日本語版 | Nejumi |
| ARC-AGI / ARC-AGI-2 | 抽象推論 | Nejumi |
| SWE-Bench Verified | ソフトウェアエンジニアリング | Nejumi |
| BFCL | 関数呼び出し(Berkeley Function Calling) | Nejumi |
| JamC-QA | 日本固有の知識 QA | Swallow |
| chABSA | 金融レポートの感情分析 | Open Japanese LLM |
新しいベンチマーク(2025〜2026 年)
| ベンチマーク | 開発元 | 内容 |
|---|---|---|
| EDINET-Bench | Sakana AI(ICLR 2026) | EDINET の有価証券報告書 10 年分を使った金融タスク(粉飾検出、業績予測)。最先端 LLM でもロジスティック回帰をわずかに上回る程度という結果 |
| JP-TL-Bench | Shisa AI | 日英双方向翻訳の評価。70 プロンプト、20 アンカーモデルで Bradley-Terry スコアを算出 |
| JAMSE | ANLP 2025 | GENIAC(経産省の計算資源支援プログラム)の LLM 開発コンペから生まれた高品質 few-shot 日本語ベンチマーク |
| JFBench | Preferred Networks | 日本語での指示追従ベンチマーク。PLaMo 2.2 Prime がこれで GPT-5.1 と同等を達成 |
日本産モデルの現状
グローバルのフロンティアモデルが Nejumi 4 の上位を独占する中、日本企業・大学が開発している LLM はどの程度の位置にいるのか。
PLaMo(Preferred Networks)
- 最新: PLaMo 3.0 Prime beta(2026 年 3 月 19 日)、PLaMo 2.2 Prime(2026 年 1 月)
- パラメータ: 31B(PLaMo 2.x 系)、PLaMo 3.0 はフルスクラッチ再構築
- アーキテクチャ: 完全自社開発。PLaMo 3.0 は日本初のスクラッチ構築推論モデル
- 公開: API(商用)、ベースモデル(1B)は HuggingFace で公開
- JFBench (日本語指示追従): PLaMo 2.2 Prime が GPT-5.1 と同等
- Jaster (4-shot): 比較対象中で最高平均スコア(Gemma3-27B, Qwen2.5-32B, GPT-4o mini を上回る)
- デジタル庁「政府 AI」プログラムに 15 社中 7 社の 1 つとして選定
NTT tsuzumi 2
- パラメータ: 30B
- アーキテクチャ: 完全自社開発(フルスクラッチ)
- 公開: エンタープライズ API のみ(オープンウェイトなし)
- JP MT-Bench Turn 1: 「ほとんどのタスクで GPT-5 に匹敵」と報告
- GPT-3.5 との対戦で 81.3% の勝率
- Gemma-3 27B、Qwen-2.5 32B を上回り、Llama-3.3 70B と同等と報告されている(知識・分析・指示追従)
- 単一 H100 で動作
- デジタル庁「政府 AI」(Gennai プラットフォーム)に選定
NTT + Cohere「Takane」
- Command R+ をベースに日本語特化
- JGLUE で世界最高スコアを報告
ELYZA(KDDI 子会社)
- 最新: Llama-3.1-ELYZA-JP-70B(2024 年)、ELYZA-LLM-Diffusion(2026 年 1 月)
- パラメータ: 8B / 70B(Llama 3 / 3.1 ベースのファインチューン)
- 公開: API + HuggingFace でオープンウェイト
- ELYZA Tasks 100: 70B が GPT-4、Claude 3 Sonnet を超過
- JP MT-Bench: 70B が GPT-4 を超過(8B は GPT-3.5 Turbo 相当)
- デジタル庁「政府 AI」に選定(約 18 万人の政府職員向け)
- 医療特化の ELYZA-LLM-Med は IgakuQA(医師国家試験)で最高スコア
CyberAgent CALM3
- パラメータ: 22.5B
- アーキテクチャ: 完全自社開発(フルスクラッチ)
- 公開: オープンウェイト、Apache 2.0
- Nejumi 3: Meta-Llama-3-70B-Instruct と同等の性能を 22.5B で達成
- 2024 年 7 月リリース以降、後継モデルの公開発表なし
LLM-jp-3(国立情報学研究所)
- パラメータ: 172B(他に 150M〜13B の各サイズ)
- アーキテクチャ: 完全自社開発、2.1 兆トークンで学習
- 公開: モデル重み + 学習データ + コードすべてオープン (公開時点で世界最大の完全公開モデル)
- GPT-3.5 を超過、安全性評価(AnswerCarefully v1.0)で 181 問中有害回答はわずか 7 件(GPT-4 より安全)
- 研究目的のモデルであり、性能よりも完全な再現可能性に価値がある
Swallow(東京科学大)
- 最新: GPT-OSS-Swallow-20B-RL-v0.1(2026 年 2 月 20 日)
- パラメータ: 20B / 120B(GPT-OSS ベース)、その他 Qwen3 Swallow 8B/32B
- 手法: ベースモデルに日本語の継続事前学習(CPT)を施す
- Swallow Leaderboard v2: 日本語タスク平均 0.606(20B 以下で最高)、JP MT-Bench 0.872
- GPT-OSS Swallow 120B は JP MT-Bench 0.916 で GPT-5.1 Thinking を上回る
Rakuten AI 3.0
- パラメータ: 671B MoE(Mixture of Experts、推論時は 37B のみアクティブ)
- アーキテクチャ: DeepSeek V3 ベース + 日本語ファインチューニング
- 公開: HuggingFace でオープンウェイト
- JP MT-Bench: 8.88 (GPT-4o の 8.67 を上回る)
- 2026 年 3 月 17 日に公開後、HuggingFace の config.json に
model_type: deepseek_v3が記載されていることがコミュニティに発見され、「国産 AI」の表現と実態の乖離が問題となった。当初 DeepSeek の MIT ライセンスファイルが削除されていたが、指摘後に NOTICE として再追加。GENIAC(経産省の計算資源支援プログラム)を利用して開発されたモデルだった。日経の報道によれば、日本企業の主要 LLM の 10 個中 6 個が DeepSeek または Qwen ベースの二次開発とされる
AI Novelist(Spiko)
- パラメータ: 68.7B
- アーキテクチャ: 自社開発(Bit192 Labs)、2TB 以上の日本語コーパスで学習
- 公開: API のみ(オープンウェイトなし)
- MMLU-JA-JP: Spiko-Max 202510 が 0.912 (o3-high 0.890、GPT-4.5 0.869 を上回る)
- JSQuAD 0-shot: 0.955
- JCommonsenseQA 0-shot: 0.982
- 創作 AI という本来のニッチから外れた汎用ベンチマークで、フロンティアモデルに匹敵するスコアを出している点が特異
Stockmark-2-100B
- パラメータ: 100B
- アーキテクチャ: 独自開発、日本語ビジネス文書に特化した学習データ
- 公開: MIT ライセンスでオープンウェイト
- ビジネス Q&A: 90% の正答率(GPT-4o の 88% を上回る)と報告されている
- トヨタ、パナソニックなどの企業が採用。日本語のビジネス文書処理に特化したモデルとして独自の位置を占める
NEC cotomi Act
- 特徴: Web 操作を自律的に行うエージェントモデル。海外モデルの 1/13 のパラメータで同等の日本語性能を実現と NEC が主張
- WebArena (Web ブラウザ操作ベンチマーク): 80.4% (人間の 78.2% を超過)。エージェント系のベンチマークで人間超えを達成した数少ない国産モデル
中国モデルの日本語性能
日本語 LLM の文脈で無視できないのが、中国製モデル(特に Qwen シリーズ)の日本語での強さだ。
漢字の共有が構造的なアドバンテージになっている。中国語と日本語は CJK(Chinese-Japanese-Korean)漢字を数千字共有しており、中国語の大規模コーパスで学習したモデルは、日本語の文字レベルのカバレッジを「無料で」獲得できる。
Nejumi 4 では Qwen3.5 シリーズがオープンウェイト初の 0.80 突破を果たし、27B モデルでも 0.8049 を記録している。Shisa AI のベンチマーク(Rakuda, Tengu, M-IFEval)でも、小型モデルで日本語をやるなら Qwen3 が事実上の一択という状況が報告されている。
ただし 言語汚染の問題が ABEJA の検証で確認されている。Qwen2.5-7B は日本語出力に 0.9% の確率で中国語が混入する。モデルサイズが大きくなると改善し(72B で 0.04%)、日本語ファインチューニングで 7B でも 0.2% まで低減できるが、共有トークンに起因する構造的な問題であり、完全な解消は難しい。
ベンチマークが測れていないもの
現存の日本語ベンチマークには共通する盲点がある。
敬語(けいご)の適切さを体系的に評価するベンチマークが存在しない。敬語は話者間の社会的関係に応じて動的に変化するものであり、固定的な正解を持つ知識テストでは測定できない。現在のベンチマークは「日本語で何を知っているか」を測っているが、「日本語でどう振る舞えるか」は測っていない。
同様に、省略(ellipsis)の補完、含意(implicature)の読み取り、文脈依存の高い表現の解釈といった、日本語コミュニケーションの実用面を直接評価する仕組みは未整備だ。
データから見える現状
ここまでのデータを並べると、いくつかのことが見えてくる。
総合力ではグローバルモデルが圧倒的。Nejumi 4 の総合 Top 50 に日本産モデルは 1 つも入っていない。日本語に特化したリーダーボードであっても、上位はすべて Gemini、Claude、GPT、Qwen だ。汎用的な日本語タスクでモデルを選ぶなら、グローバルのフロンティアモデルを選ぶのが現時点での合理的な判断になる。
ただし、特定の評価軸では逆転が起きている。PLaMo 2.2 Prime(31B)は JFBench で GPT-5.1 と同等、AI Novelist の Spiko(68.7B)は MMLU-JA-JP で o3-high を上回り、GPT-OSS Swallow 120B は Japanese MT-Bench で GPT-5.1 Thinking を超えた。いずれもパラメータ数で圧倒的に小さいモデルが、特定の日本語タスクでフロンティアに並んでいる。
オープンウェイトでは中国モデルが日本語でも最強。Qwen3.5 シリーズが Nejumi 4 でオープンウェイト初の 0.80 突破を達成し、小型モデルでも Qwen3 が事実上の一択になっている。日本語に強いオープンモデルが欲しい場合、選択肢は日本産ではなく中国産になるのが現状だ。
「日本産」 の定義自体が揺らいでいる。Rakuten AI 3.0 は DeepSeek V3 のファインチューン、Swallow シリーズは GPT-OSS や Qwen のファインチューン、ELYZA は Llama ベース。フルスクラッチで開発しているのは PLaMo、CyberAgent CALM3、NTT tsuzumi、LLM-jp-3 などに限られる。日経が報じた「日本企業の主要 LLM の 10 個中 6 個が DeepSeek/Qwen ベース」という数字が、この状況を端的に表している。
結局、何を使えばいいのか。汎用的な日本語処理なら、グローバルのフロンティア API(Claude、GPT、Gemini)が最も安定した選択肢になる。自前でホストしたい場合は Qwen3 系。日本語の指示追従や金融・医療などの特化領域では、PLaMo や tsuzumi のような国産モデルが選択肢に入る。ベンチマークは「どの用途で何が強いか」を見極めるために使うものであり、総合スコアだけで判断すると見落とすものがある。
参考リンク
- Nejumi Leaderboard 4 – W&B Japan
- Nejumi GitHub
- Qualiteg LLM Ranking 2026 年 3 月版
- Qualiteg LLM Ranking 2025 年 12 月版
- Swallow LLM Leaderboard v2 – 東京科学大
- GPT-OSS Swallow – 東京科学大
- Qwen3 Swallow – 東京科学大
- Open Japanese LLM Leaderboard – LLM-jp / Hugging Face
- Open Japanese LLM Leaderboard 解説 – Hugging Face Blog
- Artificial Analysis Japanese Models
- Rakuda Benchmark – Yuzu AI
- JGLUE – Yahoo Japan / 早稲田大学
- Japanese MT-Bench – Stability AI Japan
- EDINET-Bench – Sakana AI
- JP-TL-Bench – Shisa AI
- JFBench – Preferred Networks
- PLaMo 3.0 Prime beta – Preferred Networks
- PLaMo 2.2 Prime – Preferred Networks
- tsuzumi 2 – NTT
- CALM3-22B – CyberAgent
- LLM-jp-3 172B – 国立情報学研究所
- Llama-3.1-ELYZA-JP-70B – ELYZA
- Rakuten AI 3.0 – Hugging Face
- AI Novelist Spiko ベンチマーク – Bit192 Labs
- Stockmark-2-100B
- cotomi – NEC
- Qwen3 日本語性能 – Shisa AI
- Qwen 言語汚染検証 – ABEJA
- awesome-japanese-llm – LLM-jp
- 日本語 LLM の難しさ – SME AI Research
- デジタル庁「政府 AI」選定 – Impress
- Rakuten AI 3.0 DeepSeek 騒動 – ITmedia