日本語 LLM ベンチマークとリーダーボード一覧

日本語 LLM を選ぶとき、「英語のベンチマークでは強いが日本語ではどうか」は避けて通れない問いだ。しかし、日本語に特化した評価指標やリーダーボードは複数存在し、それぞれ測っているものが違う。

この記事では、2026 年 3 月時点で公開されている日本語 LLM のベンチマークとリーダーボードを横断的に集めた。

リーダーボード

日本語 LLM を評価・ランク付けしている主要なリーダーボードは、現時点で 6 つ確認できる。

Nejumi Leaderboard 4（W&B Japan）

nejumi.ai / GitHub

Weights & Biases Japan が運営する、日本語 LLM 評価で最も包括的なリーダーボード。Microsoft for Startups の専用 GPU クラスタ上で評価を実行している。

評価の 2 軸:

GLP （汎用的言語性能）: 意味解析、構文解析、推論、知識、翻訳、要約、コード生成など
ALT （アライメント）: 安全性、指示追従、ハルシネーション耐性、ロバスト性

主な評価タスク: JMMLU, JMMLU-Pro, Japanese MT-Bench, JNLI, JaNLI, JSeM, JSICK, JCoLA, JBLiMP, JHumanEval, SWE-Bench Verified, BFCL（関数呼び出し）, ARC-AGI, ARC-AGI-2, HLE-JA, HalluLens, JBBQ, JTruthfulQA, M-IFEval, CommonsenseMoralityJA

特徴: JMMLU を 3 パターン（通常・記号置換・不正解選択）でテストし、ロバスト性を確認する。推論タスクは 2 倍の重みで加重スコアを算出。

最新データ （2026 年 3 月 6 日、Qualiteg 分析より）:

順位	モデル	総合スコア	種別
1	Gemini 3.1 Pro Preview	0.8430	API
2	Claude Opus 4.6	0.8394	API
3	GPT-5.2 (xhigh)	0.8285	API
4	Claude Sonnet 4.6	0.8230	API
5	Qwen3.5-397B-A17B	0.8191	オープン
6	Gemini 3 Flash Preview	0.8155	API
7	Gemini 3 Pro Preview	0.8134	API
8	Qwen3.5-122B-A10B	0.8094	オープン
9	GPT-5.1 (high)	0.8085	API
10	Claude Opus 4.5 (thinking)	0.8064	API
11	Qwen3.5-27B	0.8049	オープン

2025 年 12 月時点で 0.80 超えは 4 モデルだったが、3 ヶ月後の 2026 年 3 月には 11 モデルに急増した。Qwen3.5 シリーズがオープンウェイト初の 0.80 突破を達成している。

日本産モデルのスコア （Nejumi 4 に登場するもの）:

モデル	スコア	開発元
NVIDIA-Nemotron-Nano-9B-v2-Japanese	0.7111	NVIDIA（日本語特化）
rinna/qwq-bakeneko-32b	0.6910	rinna
ABEJA-Qwen2.5-32b-Japanese-v1.0	0.6866	ABEJA
GPT-OSS-Swallow-20B-RL-v0.1	0.6424	東京科学大
Gemma-2-Llama-Swallow-27b-it-v0.1	0.6208	東京科学大
cyberagent/calm3-22b-chat	0.5705	CyberAgent

総合 Top 50 に日本産モデルは入っていない。最上位の NVIDIA Nemotron Nano 9B Japanese（0.7111）も、11 位の Qwen3.5-27B（0.8049）とは大きな差がある。

Swallow LLM Leaderboard v2（東京科学大）

swallow-llm.github.io / GitHub

東京科学大学（旧東京工業大学）の Swallow プロジェクトが運営。v2 は 2025 年 8 月にリリースされた。日本語タスクと英語タスクを並列で評価するため、同一モデルの日英性能差を直接比較できるのが最大の特徴。

日本語タスク （5 種）: JamC-QA, MMLU-ProX, GPQA, MATH-100, JHumanEval

英語タスク （6 種）: HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench

Japanese MT-Bench / English MT-Bench も別途実施（GPT-4o による評価）。

主要モデルの日英スコア比較:

モデル	日本語タスク平均	英語タスク平均	JP MT-Bench	備考
GPT-5	0.891	0.875	—	日英ほぼ均衡
Qwen3-235B-A22B-Thinking	0.823	—	—	オープン最高
GPT-OSS Swallow 120B	0.642	0.804	0.916	英語と日本語で 0.16 の差
Qwen3 Swallow 32B	0.609	0.792	0.894
GPT-OSS Swallow 20B	0.606	0.788	0.872	20B 以下で最高
Qwen3 Swallow 8B	0.557	0.694	0.844	8B 以下で最高

注目すべきは GPT-OSS Swallow 120B の乖離だ。日本語知識タスクは 0.642 だが、Japanese MT-Bench（会話品質）では 0.916 で GPT-5.1 Thinking（0.897）を上回る。流暢な日本語生成と日本語での深い知識は別物であることがデータに表れている。

Swallow プロジェクトはリーダーボード運営と同時にモデル開発も行っており、ベースモデルに日本語の継続事前学習（CPT）を施した Swallow 系モデルを公開している。CPT により JamC-QA で +3〜13 ポイントの改善が一貫して見られる。

Open Japanese LLM Leaderboard（LLM-jp / Hugging Face）

Hugging Face Space / 解説記事

国立情報学研究所（NII）の LLM-jp プロジェクトと Hugging Face の共同運営。2024 年 11 月に公開。評価ツールは llm-jp-eval v1.14.1、推論は mdx（日本の研究用計算基盤）上の vLLM（高速推論エンジン）で実行。

評価タスク （16 種以上、4-shot = 4 つの回答例を提示して解かせる形式）: Jamp（時制 NLI）, JEMHopQA（マルチホップ QA）, JCommonsenseQA（常識推論）, chABSA（金融ドメイン感情分析）, mbpp-ja（Python コード）, mawps（数学文章題）, JMMLU（57 科目）, XL-Sum（ニュース要約）ほか

特徴: オープンウェイトモデルに特化。全モデルで一貫した条件（同一 GPU、同一推論エンジン）で評価。

傾向: 全モデル共通の弱点として金融ドメイン （chABSA）、コード生成 （mbpp-ja）、要約（XL-Sum）のスコアが低い。逆に、日本企業開発モデルは倫理・文化的推論 （JCommonsenseMorality）で海外モデルより高い傾向がある。

※ 2026 年 3 月時点ではインフラ障害でリーダーボードの表示が不安定な場合がある。

Artificial Analysis Japanese Multilingual Index

artificialanalysis.ai/models/multilingual/japanese

Artificial Analysis が Global-MMLU-Lite の日本語スコアを用いてランキング。109 モデル中 13 モデルの日本語スコアを公開。

順位	モデル	日本語スコア
1	Gemini 3.1 Pro Preview	94
2	Claude Opus 4.6	93
3	Claude Sonnet 4.6	93

対象が API モデル中心で、オープンウェイトや日本産モデルのカバレッジは限定的。ただし速度・コスト・レイテンシとの横断比較ができる点が独自の価値。

Rakuda Benchmark（Yuzu AI）

yuzuai.jp/benchmark

日本の文化・歴史・社会・政治・地理に関する 40 問のオープンエンド質問で評価する。正解がないため、LLM-as-Judge によるペアワイズ比較（モデル同士の一対一対決）で Bradley-Terry スコア（対戦結果から算出するレーティング指標）を算出。日本固有の知識と文化的文脈を直接問う、唯一のベンチマーク。

ELYZA Tasks 100

note.com 解説

ELYZA が公開する、ビジネスメール作成・要約・翻訳・プログラミングなど 100 タスクの自由記述評価。GPT-4 が 5 段階で採点する。正解のない生成タスクが中心で、上記の JGLUE のような正誤判定型ベンチマークとは性質が異なる。ELYZA-Llama-3-70B がこの評価で GPT-4 や Claude 3 Sonnet を上回ったと報告されている。

主要ベンチマーク（データセット）

リーダーボードの裏側で使われている個別のベンチマーク（データセット）は、同じ名前でもリーダーボードによって使い方が異なることがある。

JGLUE（日本語汎用言語理解評価）

GitHub / 論文

Yahoo Japan と早稲田大学（河原研）が開発した、日本語版 GLUE。最も基礎的な日本語 NLU ベンチマークとして広く採用されている。

タスク	内容
MARC-ja	テキスト分類（Amazon レビューの感情分析）
JSTS	文意類似度（Semantic Textual Similarity）
JNLI	自然言語推論（含意・矛盾・中立）
JSQuAD	読解（SQuAD 1.1 ベース、Wikipedia 記事）
JCommonsenseQA	常識推論（5 択、ConceptNet ベース）

AI Novelist の Spiko が自社サイトで公開しているスコア（自社計測）では、JSQuAD 0-shot（例示なしで解答させる形式）で 0.955、JCommonsenseQA 0-shot で 0.982 を達成しており、これはフロンティアモデルと比較しても高い水準だ。

JMMLU / JMMLU-Pro

MMLU の日本語版。53〜57 科目の知識テスト。Nejumi 4 では通常版に加え、記号を置換したパターンと不正解を選ばせるパターンの 3 パターンでテストし、暗記による過学習（ベンチマーク汚染）への耐性を確認している。JMMLU-Pro は高難度版。

AI Novelist の Spiko-Max 202510 は MMLU-JA-JP（OpenAI 版）で 0.912 を記録しており、o3-high（0.890）や GPT-4.5（0.869）を上回る（いずれも自社サイトでの公開値）。

Japanese MT-Bench

GitHub（Stability AI Japan）

8 カテゴリ（コーディング、抽出、人文、数学、推論、ロールプレイ、STEM、ライティング）のマルチターン対話 80 問。日本語での対話品質を測る。GPT-4 が審判。

Nejumi 4 と Swallow v2 の両方で使われている。Swallow のデータでは GPT-OSS Swallow 120B が 0.916 で GPT-5.1 Thinking（0.897）を上回った。

その他の主要ベンチマーク

ベンチマーク	内容	使用リーダーボード
JHumanEval	Python コード生成（日本語指示）	Nejumi, Swallow
M-IFEval-Ja	日本語での指示追従（フォーマット準拠など）	Nejumi, Swallow
HalluLens	ハルシネーション耐性	Nejumi
JBBQ	バイアス評価	Nejumi
JTruthfulQA	事実性（誤情報への耐性）	Nejumi
CommonsenseMoralityJA	日本の常識的倫理判断	Nejumi
HLE-JA	Humanity’s Last Exam 日本語版	Nejumi
ARC-AGI / ARC-AGI-2	抽象推論	Nejumi
SWE-Bench Verified	ソフトウェアエンジニアリング	Nejumi
BFCL	関数呼び出し（Berkeley Function Calling）	Nejumi
JamC-QA	日本固有の知識 QA	Swallow
chABSA	金融レポートの感情分析	Open Japanese LLM

新しいベンチマーク（2025〜2026 年）

ベンチマーク	開発元	内容
EDINET-Bench	Sakana AI（ICLR 2026）	EDINET の有価証券報告書 10 年分を使った金融タスク（粉飾検出、業績予測）。最先端 LLM でもロジスティック回帰をわずかに上回る程度という結果
JP-TL-Bench	Shisa AI	日英双方向翻訳の評価。70 プロンプト、20 アンカーモデルで Bradley-Terry スコアを算出
JAMSE	ANLP 2025	GENIAC（経産省の計算資源支援プログラム）の LLM 開発コンペから生まれた高品質 few-shot 日本語ベンチマーク
JFBench	Preferred Networks	日本語での指示追従ベンチマーク。PLaMo 2.2 Prime がこれで GPT-5.1 と同等を達成

日本産モデルの現状

グローバルのフロンティアモデルが Nejumi 4 の上位を独占する中、日本企業・大学が開発している LLM はどの程度の位置にいるのか。

PLaMo（Preferred Networks）

最新: PLaMo 3.0 Prime beta（2026 年 3 月 19 日）、PLaMo 2.2 Prime（2026 年 1 月）
パラメータ: 31B（PLaMo 2.x 系）、PLaMo 3.0 はフルスクラッチ再構築
アーキテクチャ: 完全自社開発。PLaMo 3.0 は日本初のスクラッチ構築推論モデル
公開: API（商用）、ベースモデル（1B）は HuggingFace で公開
JFBench （日本語指示追従）: PLaMo 2.2 Prime が GPT-5.1 と同等
Jaster （4-shot）: 比較対象中で最高平均スコア（Gemma3-27B, Qwen2.5-32B, GPT-4o mini を上回る）
デジタル庁「政府 AI」プログラムに 15 社中 7 社の 1 つとして選定

NTT tsuzumi 2

パラメータ: 30B
アーキテクチャ: 完全自社開発（フルスクラッチ）
公開: エンタープライズ API のみ（オープンウェイトなし）
JP MT-Bench Turn 1: 「ほとんどのタスクで GPT-5 に匹敵」と報告
GPT-3.5 との対戦で 81.3% の勝率
Gemma-3 27B、Qwen-2.5 32B を上回り、Llama-3.3 70B と同等と報告されている（知識・分析・指示追従）
単一 H100 で動作
デジタル庁「政府 AI」（Gennai プラットフォーム）に選定

NTT + Cohere「Takane」

Command R+ をベースに日本語特化
JGLUE で世界最高スコアを報告

ELYZA（KDDI 子会社）

最新: Llama-3.1-ELYZA-JP-70B（2024 年）、ELYZA-LLM-Diffusion（2026 年 1 月）
パラメータ: 8B / 70B（Llama 3 / 3.1 ベースのファインチューン）
公開: API + HuggingFace でオープンウェイト
ELYZA Tasks 100: 70B が GPT-4、Claude 3 Sonnet を超過
JP MT-Bench: 70B が GPT-4 を超過（8B は GPT-3.5 Turbo 相当）
デジタル庁「政府 AI」に選定（約 18 万人の政府職員向け）
医療特化の ELYZA-LLM-Med は IgakuQA（医師国家試験）で最高スコア

CyberAgent CALM3

パラメータ: 22.5B
アーキテクチャ: 完全自社開発（フルスクラッチ）
公開: オープンウェイト、Apache 2.0
Nejumi 3: Meta-Llama-3-70B-Instruct と同等の性能を 22.5B で達成
2024 年 7 月リリース以降、後継モデルの公開発表なし

LLM-jp-3（国立情報学研究所）

パラメータ: 172B（他に 150M〜13B の各サイズ）
アーキテクチャ: 完全自社開発、2.1 兆トークンで学習
公開: モデル重み + 学習データ + コードすべてオープン （公開時点で世界最大の完全公開モデル）
GPT-3.5 を超過、安全性評価（AnswerCarefully v1.0）で 181 問中有害回答はわずか 7 件（GPT-4 より安全）
研究目的のモデルであり、性能よりも完全な再現可能性に価値がある

Swallow（東京科学大）

最新: GPT-OSS-Swallow-20B-RL-v0.1（2026 年 2 月 20 日）
パラメータ: 20B / 120B（GPT-OSS ベース）、その他 Qwen3 Swallow 8B/32B
手法: ベースモデルに日本語の継続事前学習（CPT）を施す
Swallow Leaderboard v2: 日本語タスク平均 0.606（20B 以下で最高）、JP MT-Bench 0.872
GPT-OSS Swallow 120B は JP MT-Bench 0.916 で GPT-5.1 Thinking を上回る

Rakuten AI 3.0

パラメータ: 671B MoE（Mixture of Experts、推論時は 37B のみアクティブ）
アーキテクチャ: DeepSeek V3 ベース + 日本語ファインチューニング
公開: HuggingFace でオープンウェイト
JP MT-Bench: 8.88 （GPT-4o の 8.67 を上回る）
2026 年 3 月 17 日に公開後、HuggingFace の config.json に model_type: deepseek_v3 が記載されていることがコミュニティに発見され、「国産 AI」の表現と実態の乖離が問題となった。当初 DeepSeek の MIT ライセンスファイルが削除されていたが、指摘後に NOTICE として再追加。GENIAC（経産省の計算資源支援プログラム）を利用して開発されたモデルだった。日経の報道によれば、日本企業の主要 LLM の 10 個中 6 個が DeepSeek または Qwen ベースの二次開発とされる

AI Novelist（Spiko）

パラメータ: 68.7B
アーキテクチャ: 自社開発（Bit192 Labs）、2TB 以上の日本語コーパスで学習
公開: API のみ（オープンウェイトなし）
MMLU-JA-JP: Spiko-Max 202510 が 0.912 （o3-high 0.890、GPT-4.5 0.869 を上回る）
JSQuAD 0-shot: 0.955
JCommonsenseQA 0-shot: 0.982
創作 AI という本来のニッチから外れた汎用ベンチマークで、フロンティアモデルに匹敵するスコアを出している点が特異

Stockmark-2-100B

パラメータ: 100B
アーキテクチャ: 独自開発、日本語ビジネス文書に特化した学習データ
公開: MIT ライセンスでオープンウェイト
ビジネス Q&A: 90% の正答率（GPT-4o の 88% を上回る）と報告されている
トヨタ、パナソニックなどの企業が採用。日本語のビジネス文書処理に特化したモデルとして独自の位置を占める

NEC cotomi Act

特徴: Web 操作を自律的に行うエージェントモデル。海外モデルの 1/13 のパラメータで同等の日本語性能を実現と NEC が主張
WebArena （Web ブラウザ操作ベンチマーク）: 80.4% （人間の 78.2% を超過）。エージェント系のベンチマークで人間超えを達成した数少ない国産モデル

中国モデルの日本語性能

日本語 LLM の文脈で無視できないのが、中国製モデル（特に Qwen シリーズ）の日本語での強さだ。

漢字の共有が構造的なアドバンテージになっている。中国語と日本語は CJK（Chinese-Japanese-Korean）漢字を数千字共有しており、中国語の大規模コーパスで学習したモデルは、日本語の文字レベルのカバレッジを「無料で」獲得できる。

Nejumi 4 では Qwen3.5 シリーズがオープンウェイト初の 0.80 突破を果たし、27B モデルでも 0.8049 を記録している。Shisa AI のベンチマーク（Rakuda, Tengu, M-IFEval）でも、小型モデルで日本語をやるなら Qwen3 が事実上の一択という状況が報告されている。

ただし 言語汚染の問題が ABEJA の検証で確認されている。Qwen2.5-7B は日本語出力に 0.9% の確率で中国語が混入する。モデルサイズが大きくなると改善し（72B で 0.04%）、日本語ファインチューニングで 7B でも 0.2% まで低減できるが、共有トークンに起因する構造的な問題であり、完全な解消は難しい。

ベンチマークが測れていないもの

現存の日本語ベンチマークには共通する盲点がある。

敬語（けいご）の適切さを体系的に評価するベンチマークが存在しない。敬語は話者間の社会的関係に応じて動的に変化するものであり、固定的な正解を持つ知識テストでは測定できない。現在のベンチマークは「日本語で何を知っているか」を測っているが、「日本語でどう振る舞えるか」は測っていない。

同様に、省略（ellipsis）の補完、含意（implicature）の読み取り、文脈依存の高い表現の解釈といった、日本語コミュニケーションの実用面を直接評価する仕組みは未整備だ。

データから見える現状

ここまでのデータを並べると、いくつかのことが見えてくる。

総合力ではグローバルモデルが圧倒的。Nejumi 4 の総合 Top 50 に日本産モデルは 1 つも入っていない。日本語に特化したリーダーボードであっても、上位はすべて Gemini、Claude、GPT、Qwen だ。汎用的な日本語タスクでモデルを選ぶなら、グローバルのフロンティアモデルを選ぶのが現時点での合理的な判断になる。

ただし、特定の評価軸では逆転が起きている。PLaMo 2.2 Prime（31B）は JFBench で GPT-5.1 と同等、AI Novelist の Spiko（68.7B）は MMLU-JA-JP で o3-high を上回り、GPT-OSS Swallow 120B は Japanese MT-Bench で GPT-5.1 Thinking を超えた。いずれもパラメータ数で圧倒的に小さいモデルが、特定の日本語タスクでフロンティアに並んでいる。

オープンウェイトでは中国モデルが日本語でも最強。Qwen3.5 シリーズが Nejumi 4 でオープンウェイト初の 0.80 突破を達成し、小型モデルでも Qwen3 が事実上の一択になっている。日本語に強いオープンモデルが欲しい場合、選択肢は日本産ではなく中国産になるのが現状だ。

「日本産」 の定義自体が揺らいでいる。Rakuten AI 3.0 は DeepSeek V3 のファインチューン、Swallow シリーズは GPT-OSS や Qwen のファインチューン、ELYZA は Llama ベース。フルスクラッチで開発しているのは PLaMo、CyberAgent CALM3、NTT tsuzumi、LLM-jp-3 などに限られる。日経が報じた「日本企業の主要 LLM の 10 個中 6 個が DeepSeek/Qwen ベース」という数字が、この状況を端的に表している。

結局、何を使えばいいのか。汎用的な日本語処理なら、グローバルのフロンティア API（Claude、GPT、Gemini）が最も安定した選択肢になる。自前でホストしたい場合は Qwen3 系。日本語の指示追従や金融・医療などの特化領域では、PLaMo や tsuzumi のような国産モデルが選択肢に入る。ベンチマークは「どの用途で何が強いか」を見極めるために使うものであり、総合スコアだけで判断すると見落とすものがある。