
Cloudflareが、極大規模LLM(extra-large language models)をCloudflareのインフラ上で高速に動かすためのカスタム技術スタックを発表しました。同時にAI GatewayやAI Searchといった、AIエージェント向けの機能も複数アップデートされています。
これ、なかなか地味だけど重要な話なんですよ。要はこういうことですね——今のLLM利用は、OpenAI・Anthropic・Googleのような「モデル提供者」の推論エンドポイントを直接叩くことが多いです。Cloudflareはその間に入って、複数モデルを束ねて提供する「推論レイヤー」を自社のネットワーク上に構築しようとしています。
で、何が変わるかというと、開発者にとっての選択肢が増えます。Cloudflare Workers内からAIモデルを呼び出す時、どのプロバイダーのどのモデルを使うかを動的に切り替えられる。料金や応答速度、モデルの得意分野に応じて最適なものを選ぶ——その仲介をCloudflareがやる、という構想です。
(ちなみに同時発表された「AI Search」は、エージェントが自律的に情報検索をするための機能。検索インデックスをファイルアップロードで動的に作れるため、小規模な社内データ検索から大規模なWebスケールの検索まで、同じインターフェイスで扱える方向性を示しています)
AIエージェントは、今後モデル単体の性能よりも「どう組み合わせて動かすか」で差別化する時代に入ると思います。Cloudflareが推論レイヤーを取ろうとしているのは、その構造変化を見越した動き。開発者として使い勝手を見定めていきたいところですね。続報待ちです。
Building the foundation for running extra-large language models — Cloudflare Blog