Grok 4.20 Beta は「賢さ」より「嘘をつかない」を選んだ──ベンチマークでは見えない強さ

「総合スコア 4 位」のモデルが隠し持つ、2 つの異質な強み

AI モデルを選ぶとき、多くの人はベンチマークの「総合スコア」を見る。スコアが高いモデル＝良いモデル。これが業界の常識だ。

だがこの常識は、ある重要な用途において完全に間違っている可能性がある。

2026 年 3 月 12 日時点の Artificial Analysis（AI モデルのベンチマークスコアを独立測定し、横断比較できるサービス。本記事のデータはすべてこのサービスによる独立測定であり、xAI の公式値ではない）のデータに、それを示す異質なモデルがいる。xAI（Elon Musk が設立した AI 企業）が開発する Grok 4.20 Beta 0309。Artificial Analysis の総合スコア（Intelligence Index）は 4 位。コーディング能力も中位。普通なら「悪くはないが、トップではない」と片付けられるモデルだ。

ところがこのモデルには、標準的なベンチマークでは見えにくい特性がある。複数の AI を束ねて仕事をさせるとき──つまり AI が「嘘をつかずに正確に指示を出せるか」が問われる場面で、このモデルのプロファイルは他のどのモデルとも違う形をしている。

その異質さがなぜ重要なのかを、データから読み解いていく。

ハルシネーション率 22%──「嘘をつかない」を数値で証明する

その異質さを最も端的に示すデータから始めよう。ハルシネーション──AI が事実と異なる情報をもっともらしく生成する現象──の発生率だ。

AA-Omniscience は Artificial Analysis が提供するハルシネーション率の指標で、モデルが「答えを知らないとき」に誤った回答を返す割合を測定する。具体的には、不正解の回答数を「不正解＋部分正解＋回答拒否」の合計で割った値で、低いほどハルシネーションが少ない（誤答するくらいなら「わからない」と正直に拒否する傾向が強い）。

モデル	ハルシネーション率	総合スコア
Grok 4.20 Beta 0309	22%	48.5
Claude 4.5 Haiku（Anthropic）	26%	37.1
Claude Sonnet 4.6（Anthropic）	46%	51.7
Gemini 3.1 Pro Preview（Google）	50%	57.2
Claude Opus 4.6（Anthropic）	61%	53.0
GPT-5.4（OpenAI）	89%	57.0

Grok 4.20 Beta 0309 のハルシネーション率は 22% で全モデル中最低。注目すべきは、Claude 4.5 Haiku（26%）をも下回っていることだ。Claude 系モデルはこれまで「ハルシネーションが少ないモデル」として、Claude Code（Anthropic が開発する AI コーディング支援 CLI ツール）のような開発支援ツールの信頼性の基盤になってきた。その Claude 系を上回るハルシネーション耐性が、Grok 4.20 にはある。

一方、GPT-5.4 のハルシネーション率は 89%──総合スコアでは 57.0 で全モデル中 2 位だが、ハルシネーション率はほぼ最下位圏だ。なぜこんな逆転が起きるのか。

賢いモデルほど嘘をつく──総合スコアのパラドックス

この一見矛盾する結果には構造的な理由がある。

総合スコアを構成するベンチマーク（GPQA、MMLU-Pro、MATH など。いずれも科学知識・一般知識・数学の正答率を測る指標）は正答率を測る。正しく答えればスコアが上がり、「わかりません」と拒否してもスコアは上がらない。つまりモデルにとって「確信がなくてもそれっぽく答える戦略」は合理的な最適化になる。誤答のペナルティより、正答のリワードのほうが期待値が高いからだ。

結果として、総合スコアを最大化するように訓練されたモデルは、ハルシネーションを抑えるインセンティブが弱い。GPT-5.4 のハルシネーション率 89% は、このメカニズムの極端な表れと読める。

これは「GPT-5.4 が悪いモデルだ」という意味ではない。使い方次第だ。たとえば複数の回答候補を生成して最良のものを選ぶ手法（Best-of-N）では、「自信がなくても積極的に答える」モデルのほうが多様な候補を出せる。ハルシネーションの高さは、使い方によっては長所にもなりうる。

「協調力」全モデル 1 位──tau-bench v2 が映す第二の異質さ

Grok 4.20 の異質さはハルシネーション率だけではない。tau-bench v2──複数の AI エージェントが部分的な情報しか持たない状況で分散的に意思決定するタスクを測るベンチマークでも、際立ったスコアを出している。

モデル	tau2	総合スコア
Grok 4.20 Beta 0309（推論モード）	0.965	48.5
Gemini 3.1 Pro Preview（Google）	0.956	57.2
Grok 4.1 Fast（推論モード）	0.933	38.6
Claude Opus 4.6（Anthropic）	0.921	53.0
GPT-5.4（OpenAI）	0.915	57.0
Grok 3 mini（推論モード）	0.904	32.1

Grok 4.20 Beta 0309 の tau2 スコアは 0.965。全 432 モデル中 1 位だ。Gemini 3.1 Pro Preview の 0.956 を僅差で上回り、Claude Opus 4.6（0.921）や GPT-5.4（0.915）には明確な差をつけている。

ところが総合スコアを見ると、Grok 4.20 Beta は 48.5 で 4 位。Gemini 3.1 Pro の 57.2 や GPT-5.4 の 57.0 と比べると約 15% 低い。Claude Opus 4.6 の 53.0 にも届いていない。

「嘘をつかない」、そして「チームをまとめる」──2 つの強みが揃ったとき、何が起きるか。

Claude Code の「司令塔」独壇場に、初めての対抗馬が現れた

近年、複数の AI エージェントを階層的に組み合わせて複雑なタスクを遂行するアプローチが広がっている。たとえば Claude Code では、メインの AI がタスクを分解し、サブエージェントに調査やコード生成を委託して結果を統合する。この構造では、頂点に立つ AI（司令塔）の判断が全体の品質を左右する。

司令塔の AI が事実と異なる判断を下すと、その誤りに基づいてすべてのサブエージェントが動き始める。つまりハルシネーションのコストが末端のエージェントとは比較にならないほど高い。

ここで Grok 4.20 Beta のスコアプロファイルを改めて見直すと、ある像が浮かび上がる。ハルシネーション率で全モデル中最低の 22%、マルチエージェント協調で全モデル中 1 位（tau2: 0.965）。さらに、構造化された指示にどれだけ忠実に従うかを測る IFBench でも 0.829 と上位圏だ（「JSON 形式で返せ」「この制約に従え」といった出力要件への忠実さを測る指標で、サブエージェントへの正確な指示出しに直結する）。その一方、総合スコアは 48.5 で 4 位、コーディング能力も中位。

「賢さ」では勝てないが、「嘘をつかない」「正確に指示を出す」「チームをまとめる」では圧倒的。これは「エージェントを束ねる司令塔」に求められる特性そのものだ。

逆に、総合スコアの高い GPT-5.4（57.0）や Gemini 3.1 Pro（57.2）は、ハルシネーション率が 50〜89% と高い。これらのモデルは「正答率が高いが、間違うときは自信を持って間違う」タイプであり、司令塔の下で実際のコード生成や調査を担う「実行役」（サブエージェント）として使うときに真価を発揮する。

つまり、AI エージェントの階層構造において、「司令塔」と「実行役」では最適なモデルの特性が根本的に異なる。そして Grok 4.20 Beta のプロファイルは、司令塔の役割に極めて適している。

この「低ハルシネーション＋高協調力」というポジションは、これまで Claude 系モデルの独壇場だった。AA-Omniscience 上位に Claude 4.5 Haiku（26%）や Claude Sonnet 4.6（46%）が並び、Claude Code が「AI を使った開発の司令塔」として広く採用されてきた背景には、このプロファイルの優位性がある。

Grok 4.20 Beta の 22% という数字は、Claude 系モデルが持っていた「司令塔に最適なモデル」という立ち位置に、初めて正面から対抗するプレイヤーが現れたことを意味する。しかも tau2 スコアでは Claude Opus 4.6 の 0.921 を大きく上回る 0.965。協調力と信頼性の両方で Claude 系を上回るプロファイルが、Claude 以外のモデルから出てきたのだ。

なぜ実現できたのか──4 つのエージェントが「議論」するアーキテクチャ

Grok 4.20 がこのプロファイルを持つ理由は、内部構造にある。このモデルには、推論時に 4 つの専門エージェントが協調動作する仕組みがネイティブに組み込まれている。

xAI が公開している情報によると、4 つのエージェントはタスク分解と統合を担う司令塔、リアルタイムデータを用いた事実検証を担う調査担当、段階的推論と数値検証を担うロジック担当、盲点検出と発散思考を担う創造性担当という構成だ。処理フローは「タスク分解→並列分析→複数ラウンドの議論→統合→出力」となっている。ユーザーにはリーダーエージェントの最終出力だけが返され、サブエージェントの推論過程は通常見えない。

つまり Grok 4.20 は、マルチエージェント協調を外部フレームワークに任せるのではなく、モデルの推論パイプライン自体に埋め込んでいる。tau-bench v2 はまさにこのマルチエージェント協調能力を測定するベンチマークだから、構造的に有利なのは当然とも言える。

「協調をどこでやるか」という設計思想の違い

このアーキテクチャの特徴は、他の AI ツールの設計と比較するとより鮮明になる。

Claude Code や Codex CLI（OpenAI の CLI ツール）、Gemini CLI（Google の CLI ツール）は、エージェント間の協調をアプリケーション層で実現している。モデル自体は単一の LLM で、複数エージェントの生成・ルーティング・統合はホスト側のコードが担う。ユーザーがエージェントの構成や役割分担を自由にカスタマイズできるのが特徴だ。

一方、Grok 4.20 はモデル内部で協調が完結する。API 呼び出し 1 回で 4 エージェント分の分析が走り、xAI の発表によるとコストは単一パスの 1.5〜2.5 倍に抑えられている（ナイーブな 4 倍ではない）。これは Colossus（xAI の大規模 GPU クラスタ）上での推論キャッシュの共有と並列推論によるものだとされる。

この設計はトレードオフだ。アプリケーション層で協調を制御する方式は柔軟性が高く、エージェントの構成をユーザーが自由に決められる。モデル内部で協調が完結する方式はレイテンシとコストで有利だが、カスタマイズの余地が限られる。tau2 スコアの差は、このアーキテクチャの違いを反映していると読むのが妥当だろう。

推論モードをオフにすると何が起きるか

この「内部協調が強みの源泉」という仮説は、検証できる。Grok 4.20 には推論モード（Reasoning）と非推論モード（Non-reasoning）がある。推論モードではモデル内部で段階的な思考プロセス（Chain-of-Thought：結論に至るまでの推論ステップを明示的に生成する手法）が動くが、非推論モードではこれがスキップされる。

この切り替えがスコアに与える影響は劇的だ。

指標	推論モード	非推論モード	差
tau2	0.965	0.696	-28%
総合スコア	48.5	29.7	-39%
コーディング指数	42.2	25.4	-40%
IFBench	0.829	0.478	-42%

tau2 が 0.965 から 0.696 へ、約 28% 下落する。マルチエージェント協調のアドバンテージは推論モード──つまり内部での段階的思考が有効な状態──に強く依存している。非推論モードでは、4 エージェントの「議論」プロセスが十分に機能しないのだろう。

この数字は、Grok 4.20 の tau2 スコアの高さが「モデルの汎用的な賢さ」ではなく「推論時の内部協調プロセス」に由来していることを裏付けている。

この「司令塔」を使えるツールは来るのか

ここまでの分析で、Grok 4.20 Beta が「複数の AI を束ねる司令塔」として構造的に適したプロファイルを持つことを見てきた。では、このモデルを実際に使える環境はどうなっているのか。

現在、AI を使ったコーディング支援 CLI ツール市場では、Claude Code（Anthropic）、Codex CLI（OpenAI）、Gemini CLI（Google）が主要プレイヤーだ。いずれも自社モデルを軸に据えたツールで、モデルとツールの統合による最適化が競争力の源泉になっている。

xAI もこの領域への参入を示唆している。2026 年 2 月、Elon Musk は X 上で Grok CLI ツールの開発について「Coming soon」と返答した。「Grok Build」と呼ばれる開発者向けツールの存在も確認されており、複数エージェントの並列実行やローカルでのコード実行が特徴とされる。ただし 2026 年 3 月時点で正式リリースには至っていない。

これが実現すると、「低ハルシネーション＋高協調力」という司令塔向けのモデルを、そのモデルに最適化された CLI ツールから直接利用できる構図が生まれる。Claude Code が Claude モデルとの密結合で最適化しているように、Grok Build が Grok 4.20 のマルチエージェント推論に特化した設計になれば、モデル単体の性能以上のアドバンテージが生まれる可能性がある。

ベンチマークの「常識」を疑うべき理由

冒頭で「総合スコアが高い＝良いモデルという常識は間違っている可能性がある」と書いた。ここまでのデータを踏まえて、その意味を整理したい。

Grok 4.20 Beta 0309 は、総合スコア 4 位、コーディング能力も中位。標準的なベンチマーク比較だけを見れば、GPT-5.4 や Gemini 3.1 Pro を選ぶのが「合理的」に見える。

だがその GPT-5.4 はハルシネーション率 89% だ。これは「答えを知らない問題に直面したとき、89% の確率で『わからない』と言わずにもっともらしい嘘をつく」という意味だ。司令塔として判断を間違えたとき、その誤りが自信に満ちた指示として全サブエージェントに伝播する。総合スコアの高さは、この危険性を覆い隠してしまう。

一方、Grok 4.20 Beta は「正答率は中位だが、間違うくらいなら答えない」。マルチエージェント協調は全モデル中 1 位、ハルシネーション率は最低の 22%。総合スコアという「1 つの数字」が見落としている特性こそが、実は最も重要な用途で決定的な差を生む。

そしてこの「低ハルシネーション＋高協調力＝司令塔に最適」というポジションは、これまで Claude 系モデルが事実上独占していた。Grok 4.20 Beta の登場は、Claude Code ユーザーにとっても見過ごせない変化だ。AI モデルを「賢さ」で選ぶ時代から、「どの役割に最適か」で選ぶ時代への転換を、Grok 4.20 のプロファイルは突きつけている。