著者:張烽
一、テクノロジー企業の従業員による莫大なトークン消費
2026年5月、ある報道が業界の広範な注目を集めた。あるテクノロジー企業が、従業員のClaude利用ライセンスに上限を設定していなかったため、1ヶ月間のトークン消費額が約5億ドルに達したというものである。この極端な事例が検討に値するのは、その規模そのものではなく、それが露呈した測定ロジックの断層にある。同社はトークン消費量を従業員のAI利用度合いの指標として扱っていたが、業務成果と連動した管理メカニズムを一切構築していなかった。
この「請求書の暴騰」が管理上の不手際によるものだとするならば、MetaやAmazonといったシリコンバレーのトップ企業における内部の実践は、より深層にある問題を浮き彫りにしている。Meta社内ではかつて「Claudeonomics」というランキングが導入され、8万5千人以上の従業員のトークン消費状況を追跡し、「トークン・レジェンド」や「モデル・コンシェルジュ」といった称号を設けてランキングによるインセンティブを与えていた。データによると、30日間で全従業員の累計消費量は約60兆トークンに達し、Anthropicの公開価格に基づいて試算すると、請求額は約9億ドルに相当する。ランキングトップの従業員は1ヶ月で約2810億トークンを消費しており、これは約140万ドル以上に相当する。アマゾン社内の「Kirorank」ランキングは、当初は業務シーンにおけるAI活用を推進することを目的としていたが、結果として従業員が「スコア稼ぎ」のために意図的に無意味な操作を行う現象を誘発し、最終的に上級副社長から「AIを使うためだけにAIを使うな」と厳しく非難された。技術的な測定単位であるトークン消費量は、企業内部で管理評価の尺度として歪曲された結果、大規模なインセンティブの歪みを生み出している。
ここから導かれる核心的な命題は、トークン消費量がAIエージェント、企業、あるいは従業員のパフォーマンスを評価する根拠となり得るのか、ということだ。もし答えが「否」であるならば、どのような指標こそが真に評価に値するものなのか?
我々は、トークン消費量を評価指標とすることは危険であると考えている。なぜなら、それは「コスト」と「価値」、そして「プロセス」と「成果」を混同してしまうからだ。エージェントがAIアプリケーションの主流になりつつある現在、真の資産はトークンではなく、エージェントそのものである。

二、トークンの資産化はどのようにして生まれたのか?
2.1 トークン価格設定の商業的成熟
トークンは、大規模モデルがテキストを処理する最小単位として、AI産業の基礎的な価格設定単位として確立されています。2026年3月、全国科学技術用語審定委員会はTokenの中国語名称を正式に「詞元」と定め、全社会に向けて試用を開始した。国家データ局はさらにこれをスマート時代の「決済単位」と定義した。国家データ局の開示によると、2026年第1四半期における中国の一日平均Token呼び出し量は140兆を超え、2024年初頭と比較して1000倍以上増加した。この用語の標準化の動きは、Token価格体系に関する産業的なコンセンサスが形成されつつあることを反映している。
価格設定の動向を見ると、現在のToken市場は極端な二極化を見せている。国際的な主流モデルでは、OpenAIのGPT-4oの入力価格は100万Tokenあたり2.5ドル、出力価格は10ドルである。Claude Sonnet 4.6は入力3ドル、出力15ドルである。2026年4月、OpenAIはGPT-5.5シリーズおよび上位版GPT-5.5 Proを正式にリリースし、APIの価格設定はGPT-5.5 Proの入力30ドル、出力180ドル(100万トークンあたり)となった。一方、国内の大規模モデルは価格競争の様相を呈して激しい競争を展開している:2026年5月27日、XiaomiはMiMo-V2.5シリーズAPIの価格を最大99%恒久的に引き下げると発表し、そのうちMiMo-V2.5-Proのキャッシュヒット時の入力価格は100万トークンあたり0.025元まで低下した。DeepSeekはV4シリーズをリリースし、フラッグシップ版のV4-Proもキャンペーン期間中、キャッシュヒット時の入力価格が100万トークンあたり0.025元まで低下した。Tokenという価格単位には統一された「公正価値」が存在しない——モデルやシナリオが異なれば、同等のToken消費量でも価格は100倍、あるいは1000倍もの差が生じ得る。
2.2 Tokenmaxxingの台頭と問題点
Tokenを価格単位として用いることの技術的合理性や規制当局の承認と、企業がそれを管理尺度として異化させる実践との間には、危険な断層が存在する。「Tokenmaxxing」は2025年頃から企業内で流行し始め、その根底にある管理ロジックは、「会社がすでにAIツールを購入している以上、従業員は投資対効果(ROI)を体現するためにその利用を最大化すべきだ」というものである。
しかし、データはこの論理の脆弱性を明らかにしている。ある研究によると、企業がAIトークンを1ドル購入するごとに、エラー修正、コードの書き直し、レビューの遅延など、約0.5~0.8ドルの隠れた損失が伴う可能性がある。ある分析では、Claude Codeの上位10%のヘビーユーザーが消費するトークン量は一般の開発者の約10倍である一方、生み出す成果は後者の約2倍にとどまると指摘されている。AmazonやMetaは相次いで自社のトークン内部ランキングを停止し、Uberは4ヶ月で年間のAIトークン予算を使い果たした。業界は「AIをどれだけ活用できるか」という物語から、急激に「費用対効果はどうか」という慎重な段階へと移行している。
2.3 インテリジェント・エンティティ経済の台頭
しかし、トークン消費に焦点を当てた議論は、同時期に起こった構造的な変化をほぼ完全に無視している。エージェントは、大規模モデルの「付加機能」から、独立した技術的・経済的実体へと成長しつつある。2026年5月、国家インターネット情報弁公室、国家発展改革委員会、工業情報化部は共同で『エージェントの規範的応用と革新的発展に関する実施意見』を公布し、エージェントが人工知能製品およびサービスの重要な形態であることを明確にした。Anthropicは2026年5月の開発者会議において、Claude Codeを「端末内のAIプログラミングアシスタント」から「エンジニアリングチームのための非同期自動化インフラ」へと位置づけ直し、「基本料金+実際の計算リソース消費量に応じた課金」というハイブリッドな価格モデルへ正式に移行した。同社の「Claude Managed Agents」戦略は、より根本的な転換を象徴している。モデルベンダーがエージェントの実行レイヤーインフラを直接販売し始め、ビジネスモデルはトークンの販売からインテリジェントエージェントの実行能力の販売へと移行しつつある。
まさにこのような背景のもと、トークン消費量の測定における限界がますます顕著になり、代替となる評価体系の模索も加速している。
三、トークンは測定指標として本当に適切なのか?
3.1 測定指標としてのトークンが持つ4つの構造的欠陥
第一に、トークンはコストと価値を混同している。李彦宏氏は、Create2026百度AI開発者大会において、「トークンはコストを表すだけであり、収益を表すものではない。それは投入を測定するものであり、産出を測定するものではない」と明確に述べた。一方、清華大学の馬少平教授は技術的な基盤から、「トークン自体は知能を持たず、単に情報を運ぶ媒体に過ぎない。AIの知能は、トークン列の関係性をモデル化することにある」と説明した。トークンの消費量を効率指標とするのは、ある工場が電力消費量を生産高の評価基準とするようなものだ。電気代を多く使っても、必ずしも生産量が高いとは限らず、むしろ設備の非効率性や管理の行き届きなさを示している可能性がある。
第二に、トークンにはモデル間・タスク間の測定基準が欠如している。異なる大規模モデルではトークンの計算方法が一致しておらず、Anthropicの関連バージョンにおけるトークン化アルゴリズムの調整により、同一テキストのトークン消費量が著しく変動する可能性がある。異なるタスクにおいて同等の業務目標を達成するために必要なトークン数にも、桁違いの差が存在する。さらに根本的な問題として、トークンの価格設定自体がすでに大規模モデルベンダー間で100倍以上の価格差を生じている状況下で、それを性能測定の基準点として用いることは、論理的に整合性を欠く状態にある。
第三に、トークン評価はインセンティブの歪みを引き起こす。トークン消費量が業績評価に組み込まれると、企業が直面するのは、従業員がAIを過度に使用して「コストを浪費する」ことではなく、従業員が能動的に「トークン消費の最大化」という偽の目標を選択することである。エンジニアは、最小限のトークンで最適なタスクを完了させることを追求するのではなく、タスクの連鎖を膨らませたり、冗長な推論ステップを追加したりしてトークン数を増やすようになる。この行動経済学的な意味での「指標の異化」は、MetaやAmazonの実践において明確に表れている。
第四に、Tokenでは成果の質を正確に把握することが難しい。複雑なエンジニアリング課題を一度で正確に解決できるエージェントが消費するTokenは、試行錯誤を繰り返し、何度もロールバックし、徐々に正解に近づくような質の低いエージェントよりもはるかに少ない可能性がある。トークンの消費量が多いほど、実行効率が低いことを意味することが多く、これは評価目標の方向性と正反対である。
3.2 コア資産としてのエージェントの再定義
上記の分析は、ある根本的な結論を指し示している:トークンは消費されるリソースであり、エージェントは価値を創造する実体である。両者の関係は、電力消費とそれを駆動する電動機との関係に似ている――総消費電力を統計することはできるが、真に価値があるのは、電動機器がどれだけの仕事をこなし、どのような製品を生み出したかである。
Anthropicの発展戦略がこれを裏付けている。2026年5月にリリースされた新バージョンのClaudeモデルは、「agentic coding、computer use、knowledge work、financial analysis」——すなわち、エージェントが介入可能な現実の業務シーン——に重点を置いている。さらに注目すべきは、Anthropicが「managed agents」において示したプラットフォーム化戦略である。同社は、モデルの呼び出し権の販売から、エージェントの実行レイヤーサービスの提供へと移行しつつある。この変化の本質は、価値の担い手が基盤となる計算リソースの消費から、アプリケーション層の実体へと移行していることにある。
Claude Codeの責任者によると、現行の純粋なサブスクリプション価格設定では、この製品は採算が取れていないという。この現実は、トークンによる価格設定だけではエージェントの実際のコスト構造をカバーすることが困難であることを示している。エージェントの価値の源泉は、タスクの完了度、自動化の深度、ワークフローへの組み込み度にあるが、これらはトークンという計量軸では効果的に捉えることができない。
3.3 新世代の評価基準の出現
トークンによる測定が不十分であることが証明された今、業界は代替案を模索している。タスク達成基準の観点から見ると、SWE-bench Verifiedはコードエージェント分野において、モデルが実際のGitHubリポジトリ内で自律的にバグを特定し修正することを求める、厳格な評価基準として広く認められている。公開ランキングデータによると、Claude Sonnet 4はSWE-bench Verifiedで約80.20%のスコアを記録し、Claude Opus 4.6などのモデルは同ベンチマークで約78%から80%のスコアを示している。これらのベンチマークの核心は、消費したトークン数を計測するのではなく、エージェントがいくつの「タスク単位」を完了したかを評価することにある。
ビジネス価値の評価面では、百度がDAA(日次アクティブエージェント数)を提唱しており、その定義は「毎日、どれだけ多くのエージェントが着実に人の代わりに仕事をこなし、成果を納めているか」。DAAの核心的な転換点は、評価の重心を「どれだけのAIを使用したか」から「AIがどれだけのタスクを完了したか」へと移すことにある。
アマゾンも社内で、Token追跡に代わる「正規化されたデプロイ」指標の導入を模索しており、エンジニアがAIを通じて実質的な価値のあるコードを持続的に生成できるかどうかを重点的に測定している。FinOps Foundationの2026年報告書によると、回答企業の98%がすでにAIコストの管理を行っており、2年前のわずか31%から大幅に上昇しており、コストの可視化が業界の最優先課題となっている。この傾向は、AI支出に対する業界の精緻な評価ニーズが、「支出の有無」から「支出と成果の関係」への構造的な検証へと移行しつつあることを示唆している。
これらの探求に共通する論理は次の通りです:リソースの総消費量ではなく、エージェントによるタスクの完了品質と数量を測定基準とする——これこそが、「真の資産はトークンではなく、エージェントそのものである」という命題を実証的に裏付けるものです。
四、トークン測定と価格競争の比較
4.1 トークン測定派 vs エージェント測定派
トークン測定派の基本的な立場は、2026年3月のGTCカンファレンスにおけるジェンスン・ホァン(黄仁勲)の発言に遡ることができる:「年収50万ドルのエンジニアが、1年間で25万ドル分のトークンを消費しきれなければ、私は深く憂慮するだろう」と述べ、トークン予算をエンジニアの生産性に対する投資指標と見なすべきだと主張した。この物語の枠組みの核心は、トークンの消費を生産性への投資指標と見なすことであり、その暗黙の仮定は「トークンの消費量と価値創造には正の相関がある」というものだ。
しかし、この仮説は現在、多方面からの挑戦に直面している。Uberの最高執行責任者(COO)であるアンドルー・マクドナルド氏は、このジレンマの本質を次のように指摘している。「従業員個人の生産性向上と、会社全体のビジネスへの影響を結びつけることは非常に難しい」。企業の実務においては、従業員は通常、AIを「会社にとって最も価値のある仕事」ではなく、自身の「好まない仕事」に活用している。企業の財務面では、調査によると、AI投資に明確かつ測定可能なリターンが見られると回答したCFOはわずか14%にとどまっている。Uberは年間のToken予算を使い切ったにもかかわらず、それに見合う業績の伸びを示すことができなかった。これらの証拠は、ある共通の方向性を指し示している:Token予算と事業成長の間に検証可能な因果関係が欠如しており、Tokenに評価尺度の役割を付与すべきではない。
4.2 トークン価格競争の諸刃の剣
トークン価格をめぐる激しい競争は、前述の測定に関する論争に新たな側面を加えている。OpenAIが2026年4月に発表したGPT-5.5 Pro APIの価格は、入力100万トークンあたり30ドル、出力100万トークンあたり180ドルであり、以前のGPT-5.4 Proの価格に比べて数倍に値上がりした。一方、DeepSeekはV4-Proの割引価格を100万トークンあたり0.025元まで引き下げ、XiaomiもMiMo-V2.5-Proのキャッシュヒット価格を100万トークンあたり0.025元まで引き下げた。トークン価格体系の格差は、いかなる従来の商品市場の価格差をも上回っている。同等のインフラ環境において、100万トークンの入力にかかる呼び出しコストは、0.03元未満から約210元(約30ドル)にまで跳ね上がる可能性がある。
この動向は、測定尺度としてのトークンの信頼性に根本的な脅威をもたらしている。もし同等のトークンであっても、プロバイダー間でコストに数百倍から数千倍もの差が生じるのであれば、トークン消費量を基に企業のAI性能を横断的に比較する根拠として、果たして有効と言えるだろうか。投資家やアナリストにとって、トークン消費量に基づくリスク評価や業績予測も、ますます大きな誤差に直面することになるだろう。トークンによる価格設定そのものが急速な二極化を経験しており、消費量で測られる「投入規模」は参照軸としての意義を失いつつある。
五、事実が雄弁に物語る
シナリオ1:Metaの「Claudeonomics」の失効
2026年4月、Metaのある従業員が「Claudeonomics」という社内ダッシュボードを開発し、同社8万5千人以上の従業員のトークン使用量を統計化した。データによると、30日間で全従業員の累計消費量は約60兆トークンに達し、Anthropicの公開価格に基づいて試算すると、請求額は約9億ドルに相当する。ランキングトップの個人の月間消費量は約2,810億トークンで、140万ドル以上に相当する。
この事例は、トークンによる測定志向のインセンティブがもたらす3つの段階を如実に示している:第1段階:トークンの使用量で従業員にAIツールの利用を促す。第2段階:従業員がランキングを維持するために、自らトークンを消費するタスクを探し求め、さらには生成するようになる。第3段階:企業の計算リソースが無駄に消費され、成果の質が予想を大幅に下回る。最終的に、Metaはこのランキングを停止した。
ケース2:Anthropicの計算リソースのボトルネックと拡張
トークン測定のもう一つの側面は、モデルベンダー自身のコストと計算リソースの圧力である。2026年5月、Claudeユーザーの容量制限を緩和するため、AnthropicはSpaceX傘下のColossus 1データセンターの全計算リソースを引き継ぐと発表し、300メガワット以上の追加容量と22万枚を超えるNVIDIA GPUを獲得した。合意に基づき、この追加計算能力はClaude ProおよびClaude Max会員のサービス処理能力向上に直接充てられる。この拡張の動きは、トークン価格体系が計算能力の供給に強く依存していることを明らかにするとともに、トークン価格の長期的な安定性には依然として不確定要素があることを示唆している。
シナリオ3:企業のトークン請求書に広がる圧力
マイクロソフトが一時的に従業員のClaude Code利用を制限したという報道がある。Uberは4ヶ月で年間のAIトークン予算を使い切った。Shopify、Spotify、ServiceNow、Rokuなどのテクノロジー企業の決算説明会では、いずれもAIが営業費用の主な負担要因となっていることが言及された。トークン請求額の急激な膨張が四半期決算データに影響を与え始めたとき、企業界は初めてトークンの消費と事業成果との関係を体系的に検証し始めた。
シナリオ4:エージェントを資産とする好事例
トークン測定論の物語が課題に直面する一方で、エージェントそのものに焦点を当てて評価体系を構築する企業は、異なる発展の道筋を示している。Anthropicのエンタープライズサービスに焦点を当てた戦略は顕著な成果を上げている。同社のコンシューマー向けアクティブユーザー数はChatGPTの2%にも満たないが、年換算収益ではOpenAIに継続的に迫っている。メディアの報道によると、Anthropicの年換算収益は2025年末時点で約90億ドルだったが、2026年3月までに300億ドルを突破し、同期間のOpenAIの250億ドルを正式に上回った。ある分析によると、この対照的な結果の要因の一つは、AnthropicのAIエージェントが企業のバックエンドで契約処理、データ分析、サプライチェーンの調整といった実際のタスクを実行している点にある。ユーザーにはAIエージェントの存在が見えないが、毎日安定した価値を生み出しているのだ。
The Informationなどのメディア報道によると、Claude Codeの年換算収益は、2025年から2026年初頭にかけて持続的な急成長を遂げた。企業は、単に計算リソースの消費量に対して支払うのではなく、エージェントがタスクを遂行できる品質に対して対価を支払っている——これこそが、「エージェントこそが真の資産である」という命題を強力に裏付ける証拠である。
六、トークン資産中心からエージェント資産中心への転換
以上を総括すると、正負両面のトレンドが日増しに顕著になっていることが容易に見て取れる。
第一に、トークン消費量を効率評価指標とするには構造的な欠陥がある。それは投入と産出、コストと価値を混同している。また、モデルやシナリオを横断する測定基準を欠いており、評価目標と経営目標を分離することで、深刻なインセンティブのズレを招いている。MetaやAmazonの社内実践によって、これはすでに明確に実証されている。
第二に、エージェントはAI経済において最も実質的な価値の担い手になりつつある。エージェントの定義上の特徴は「タスクを完了する単位」であり、「計算リソースを消費する単位」ではない。高効率なエージェントは、ごく少量のトークンを消費するだけで高度に複雑なタスクを完了できる可能性がある。一方、非効率なエージェントは大量のトークンを消費しても、いかなる現実的な問題も解決できない可能性がある。したがって、トークンの消費量はエージェントの能力の限界を反映するものではなく、企業のAI投資対効果を予測することもできない。
第三に、業界はトークン中心からエージェント中心の評価体系へと移行しつつある。SWE-benchなどのタスク完了ベンチマークは、エージェント能力の横断的な比較のための枠組みを提供しています。DAAなどのビジネス価値指標は、エージェントの実行レベルからAIの経済的貢献を測定しようと試みています。企業は内部で、成果の質を軸としたパフォーマンス指標を模索しています。
要するに、真の資産はトークンではなく、エージェントそのものである。トークンはエージェントの稼働を支える燃料であるが、企業の競争力は燃料タンクの容量ではなく、エンジンの効率にかかっている。トークン中心からエージェント中心への測定パラダイムの転換は、今後3~5年間におけるAI産業の評価体系再構築の主要な軸の一つとなるだろう。