Skip to content
ソフトウェア自動開発のメモ帳

日本語 LLM ベンチマークとリーダーボード一覧

日本語 LLM を選ぶとき、「英語のベンチマークでは強いが日本語ではどうか」は避けて通れない問いだ。しかし、日本語に特化した評価指標やリーダーボードは複数存在し、それぞれ測っているものが違う。

この記事では、2026 年 3 月時点で公開されている日本語 LLM のベンチマークとリーダーボードを横断的に集めた。

リーダーボード

日本語 LLM を評価・ランク付けしている主要なリーダーボードは、現時点で 6 つ確認できる。

Nejumi Leaderboard 4(W&B Japan)

nejumi.ai / GitHub

Weights & Biases Japan が運営する、日本語 LLM 評価で最も包括的なリーダーボード。Microsoft for Startups の専用 GPU クラスタ上で評価を実行している。

評価の 2 軸:

主な評価タスク: JMMLU, JMMLU-Pro, Japanese MT-Bench, JNLI, JaNLI, JSeM, JSICK, JCoLA, JBLiMP, JHumanEval, SWE-Bench Verified, BFCL(関数呼び出し), ARC-AGI, ARC-AGI-2, HLE-JA, HalluLens, JBBQ, JTruthfulQA, M-IFEval, CommonsenseMoralityJA

特徴: JMMLU を 3 パターン(通常・記号置換・不正解選択)でテストし、ロバスト性を確認する。推論タスクは 2 倍の重みで加重スコアを算出。

最新データ (2026 年 3 月 6 日、Qualiteg 分析より):

順位モデル総合スコア種別
1Gemini 3.1 Pro Preview0.8430API
2Claude Opus 4.60.8394API
3GPT-5.2 (xhigh)0.8285API
4Claude Sonnet 4.60.8230API
5Qwen3.5-397B-A17B0.8191オープン
6Gemini 3 Flash Preview0.8155API
7Gemini 3 Pro Preview0.8134API
8Qwen3.5-122B-A10B0.8094オープン
9GPT-5.1 (high)0.8085API
10Claude Opus 4.5 (thinking)0.8064API
11Qwen3.5-27B0.8049オープン

2025 年 12 月時点で 0.80 超えは 4 モデルだったが、3 ヶ月後の 2026 年 3 月には 11 モデルに急増した。Qwen3.5 シリーズがオープンウェイト初の 0.80 突破を達成している。

日本産モデルのスコア (Nejumi 4 に登場するもの):

モデルスコア開発元
NVIDIA-Nemotron-Nano-9B-v2-Japanese0.7111NVIDIA(日本語特化)
rinna/qwq-bakeneko-32b0.6910rinna
ABEJA-Qwen2.5-32b-Japanese-v1.00.6866ABEJA
GPT-OSS-Swallow-20B-RL-v0.10.6424東京科学大
Gemma-2-Llama-Swallow-27b-it-v0.10.6208東京科学大
cyberagent/calm3-22b-chat0.5705CyberAgent

総合 Top 50 に日本産モデルは入っていない。最上位の NVIDIA Nemotron Nano 9B Japanese(0.7111)も、11 位の Qwen3.5-27B(0.8049)とは大きな差がある。

Swallow LLM Leaderboard v2(東京科学大)

swallow-llm.github.io / GitHub

東京科学大学(旧東京工業大学)の Swallow プロジェクトが運営。v2 は 2025 年 8 月にリリースされた。日本語タスクと英語タスクを並列で評価するため、同一モデルの日英性能差を直接比較できるのが最大の特徴。

日本語タスク (5 種): JamC-QA, MMLU-ProX, GPQA, MATH-100, JHumanEval

英語タスク (6 種): HellaSwag, MMLU-Pro, GPQA, MATH-500, AIME 2024-2025, LiveCodeBench

Japanese MT-Bench / English MT-Bench も別途実施(GPT-4o による評価)。

主要モデルの日英スコア比較:

モデル日本語タスク平均英語タスク平均JP MT-Bench備考
GPT-50.8910.875日英ほぼ均衡
Qwen3-235B-A22B-Thinking0.823オープン最高
GPT-OSS Swallow 120B0.6420.8040.916英語と日本語で 0.16 の差
Qwen3 Swallow 32B0.6090.7920.894
GPT-OSS Swallow 20B0.6060.7880.87220B 以下で最高
Qwen3 Swallow 8B0.5570.6940.8448B 以下で最高

注目すべきは GPT-OSS Swallow 120B の乖離だ。日本語知識タスクは 0.642 だが、Japanese MT-Bench(会話品質)では 0.916 で GPT-5.1 Thinking(0.897)を上回る。流暢な日本語生成と日本語での深い知識は別物であることがデータに表れている。

Swallow プロジェクトはリーダーボード運営と同時にモデル開発も行っており、ベースモデルに日本語の継続事前学習(CPT)を施した Swallow 系モデルを公開している。CPT により JamC-QA で +3〜13 ポイントの改善が一貫して見られる。

Open Japanese LLM Leaderboard(LLM-jp / Hugging Face)

Hugging Face Space / 解説記事

国立情報学研究所(NII)の LLM-jp プロジェクトと Hugging Face の共同運営。2024 年 11 月に公開。評価ツールは llm-jp-eval v1.14.1、推論は mdx(日本の研究用計算基盤)上の vLLM(高速推論エンジン)で実行。

評価タスク (16 種以上、4-shot = 4 つの回答例を提示して解かせる形式): Jamp(時制 NLI), JEMHopQA(マルチホップ QA), JCommonsenseQA(常識推論), chABSA(金融ドメイン感情分析), mbpp-ja(Python コード), mawps(数学文章題), JMMLU(57 科目), XL-Sum(ニュース要約)ほか

特徴: オープンウェイトモデルに特化。全モデルで一貫した条件(同一 GPU、同一推論エンジン)で評価。

傾向: 全モデル共通の弱点として金融ドメイン (chABSA)、コード生成 (mbpp-ja)、要約 (XL-Sum)のスコアが低い。逆に、日本企業開発モデルは倫理・文化的推論 (JCommonsenseMorality)で海外モデルより高い傾向がある。

※ 2026 年 3 月時点ではインフラ障害でリーダーボードの表示が不安定な場合がある。

Artificial Analysis Japanese Multilingual Index

artificialanalysis.ai/models/multilingual/japanese

Artificial Analysis が Global-MMLU-Lite の日本語スコアを用いてランキング。109 モデル中 13 モデルの日本語スコアを公開。

順位モデル日本語スコア
1Gemini 3.1 Pro Preview94
2Claude Opus 4.693
3Claude Sonnet 4.693

対象が API モデル中心で、オープンウェイトや日本産モデルのカバレッジは限定的。ただし速度・コスト・レイテンシとの横断比較ができる点が独自の価値。

Rakuda Benchmark(Yuzu AI)

yuzuai.jp/benchmark

日本の文化・歴史・社会・政治・地理に関する 40 問のオープンエンド質問で評価する。正解がないため、LLM-as-Judge によるペアワイズ比較(モデル同士の一対一対決)で Bradley-Terry スコア(対戦結果から算出するレーティング指標)を算出。日本固有の知識と文化的文脈を直接問う、唯一のベンチマーク

ELYZA Tasks 100

note.com 解説

ELYZA が公開する、ビジネスメール作成・要約・翻訳・プログラミングなど 100 タスクの自由記述評価。GPT-4 が 5 段階で採点する。正解のない生成タスクが中心で、上記の JGLUE のような正誤判定型ベンチマークとは性質が異なる。ELYZA-Llama-3-70B がこの評価で GPT-4 や Claude 3 Sonnet を上回ったと報告されている。


主要ベンチマーク(データセット)

リーダーボードの裏側で使われている個別のベンチマーク(データセット)は、同じ名前でもリーダーボードによって使い方が異なることがある。

JGLUE(日本語汎用言語理解評価)

GitHub / 論文

Yahoo Japan と早稲田大学(河原研)が開発した、日本語版 GLUE。最も基礎的な日本語 NLU ベンチマークとして広く採用されている。

タスク内容
MARC-jaテキスト分類(Amazon レビューの感情分析)
JSTS文意類似度(Semantic Textual Similarity)
JNLI自然言語推論(含意・矛盾・中立)
JSQuAD読解(SQuAD 1.1 ベース、Wikipedia 記事)
JCommonsenseQA常識推論(5 択、ConceptNet ベース)

AI Novelist の Spiko が自社サイトで公開しているスコア(自社計測)では、JSQuAD 0-shot(例示なしで解答させる形式)で 0.955、JCommonsenseQA 0-shot で 0.982 を達成しており、これはフロンティアモデルと比較しても高い水準だ。

JMMLU / JMMLU-Pro

MMLU の日本語版。53〜57 科目の知識テスト。Nejumi 4 では通常版に加え、記号を置換したパターンと不正解を選ばせるパターンの 3 パターンでテストし、暗記による過学習(ベンチマーク汚染)への耐性を確認している。JMMLU-Pro は高難度版。

AI Novelist の Spiko-Max 202510 は MMLU-JA-JP(OpenAI 版)で 0.912 を記録しており、o3-high(0.890)や GPT-4.5(0.869)を上回る(いずれも自社サイトでの公開値)。

Japanese MT-Bench

GitHub(Stability AI Japan)

8 カテゴリ(コーディング、抽出、人文、数学、推論、ロールプレイ、STEM、ライティング)のマルチターン対話 80 問。日本語での対話品質を測る。GPT-4 が審判。

Nejumi 4 と Swallow v2 の両方で使われている。Swallow のデータでは GPT-OSS Swallow 120B が 0.916 で GPT-5.1 Thinking(0.897)を上回った。

その他の主要ベンチマーク

ベンチマーク内容使用リーダーボード
JHumanEvalPython コード生成(日本語指示)Nejumi, Swallow
M-IFEval-Ja日本語での指示追従(フォーマット準拠など)Nejumi, Swallow
HalluLensハルシネーション耐性Nejumi
JBBQバイアス評価Nejumi
JTruthfulQA事実性(誤情報への耐性)Nejumi
CommonsenseMoralityJA日本の常識的倫理判断Nejumi
HLE-JAHumanity’s Last Exam 日本語版Nejumi
ARC-AGI / ARC-AGI-2抽象推論Nejumi
SWE-Bench VerifiedソフトウェアエンジニアリングNejumi
BFCL関数呼び出し(Berkeley Function Calling)Nejumi
JamC-QA日本固有の知識 QASwallow
chABSA金融レポートの感情分析Open Japanese LLM

新しいベンチマーク(2025〜2026 年)

ベンチマーク開発元内容
EDINET-BenchSakana AI(ICLR 2026)EDINET の有価証券報告書 10 年分を使った金融タスク(粉飾検出、業績予測)。最先端 LLM でもロジスティック回帰をわずかに上回る程度という結果
JP-TL-BenchShisa AI日英双方向翻訳の評価。70 プロンプト、20 アンカーモデルで Bradley-Terry スコアを算出
JAMSEANLP 2025GENIAC(経産省の計算資源支援プログラム)の LLM 開発コンペから生まれた高品質 few-shot 日本語ベンチマーク
JFBenchPreferred Networks日本語での指示追従ベンチマーク。PLaMo 2.2 Prime がこれで GPT-5.1 と同等を達成

日本産モデルの現状

グローバルのフロンティアモデルが Nejumi 4 の上位を独占する中、日本企業・大学が開発している LLM はどの程度の位置にいるのか。

PLaMo(Preferred Networks)

NTT tsuzumi 2

NTT + Cohere「Takane」

ELYZA(KDDI 子会社)

CyberAgent CALM3

LLM-jp-3(国立情報学研究所)

Swallow(東京科学大)

Rakuten AI 3.0

AI Novelist(Spiko)

Stockmark-2-100B

NEC cotomi Act


中国モデルの日本語性能

日本語 LLM の文脈で無視できないのが、中国製モデル(特に Qwen シリーズ)の日本語での強さだ。

漢字の共有が構造的なアドバンテージになっている。中国語と日本語は CJK(Chinese-Japanese-Korean)漢字を数千字共有しており、中国語の大規模コーパスで学習したモデルは、日本語の文字レベルのカバレッジを「無料で」獲得できる。

Nejumi 4 では Qwen3.5 シリーズがオープンウェイト初の 0.80 突破を果たし、27B モデルでも 0.8049 を記録している。Shisa AI のベンチマーク(Rakuda, Tengu, M-IFEval)でも、小型モデルで日本語をやるなら Qwen3 が事実上の一択という状況が報告されている。

ただし 言語汚染の問題が ABEJA の検証で確認されている。Qwen2.5-7B は日本語出力に 0.9% の確率で中国語が混入する。モデルサイズが大きくなると改善し(72B で 0.04%)、日本語ファインチューニングで 7B でも 0.2% まで低減できるが、共有トークンに起因する構造的な問題であり、完全な解消は難しい。


ベンチマークが測れていないもの

現存の日本語ベンチマークには共通する盲点がある。

敬語(けいご)の適切さを体系的に評価するベンチマークが存在しない。敬語は話者間の社会的関係に応じて動的に変化するものであり、固定的な正解を持つ知識テストでは測定できない。現在のベンチマークは「日本語で何を知っているか」を測っているが、「日本語でどう振る舞えるか」は測っていない。

同様に、省略(ellipsis)の補完含意(implicature)の読み取り文脈依存の高い表現の解釈といった、日本語コミュニケーションの実用面を直接評価する仕組みは未整備だ。


データから見える現状

ここまでのデータを並べると、いくつかのことが見えてくる。

総合力ではグローバルモデルが圧倒的。Nejumi 4 の総合 Top 50 に日本産モデルは 1 つも入っていない。日本語に特化したリーダーボードであっても、上位はすべて Gemini、Claude、GPT、Qwen だ。汎用的な日本語タスクでモデルを選ぶなら、グローバルのフロンティアモデルを選ぶのが現時点での合理的な判断になる。

ただし、特定の評価軸では逆転が起きている。PLaMo 2.2 Prime(31B)は JFBench で GPT-5.1 と同等、AI Novelist の Spiko(68.7B)は MMLU-JA-JP で o3-high を上回り、GPT-OSS Swallow 120B は Japanese MT-Bench で GPT-5.1 Thinking を超えた。いずれもパラメータ数で圧倒的に小さいモデルが、特定の日本語タスクでフロンティアに並んでいる。

オープンウェイトでは中国モデルが日本語でも最強。Qwen3.5 シリーズが Nejumi 4 でオープンウェイト初の 0.80 突破を達成し、小型モデルでも Qwen3 が事実上の一択になっている。日本語に強いオープンモデルが欲しい場合、選択肢は日本産ではなく中国産になるのが現状だ。

「日本産」 の定義自体が揺らいでいる。Rakuten AI 3.0 は DeepSeek V3 のファインチューン、Swallow シリーズは GPT-OSS や Qwen のファインチューン、ELYZA は Llama ベース。フルスクラッチで開発しているのは PLaMo、CyberAgent CALM3、NTT tsuzumi、LLM-jp-3 などに限られる。日経が報じた「日本企業の主要 LLM の 10 個中 6 個が DeepSeek/Qwen ベース」という数字が、この状況を端的に表している。

結局、何を使えばいいのか。汎用的な日本語処理なら、グローバルのフロンティア API(Claude、GPT、Gemini)が最も安定した選択肢になる。自前でホストしたい場合は Qwen3 系。日本語の指示追従や金融・医療などの特化領域では、PLaMo や tsuzumi のような国産モデルが選択肢に入る。ベンチマークは「どの用途で何が強いか」を見極めるために使うものであり、総合スコアだけで判断すると見落とすものがある。


参考リンク