
武蔵小山の机で、OneDrive をスクロールしながら、MAI-Image-2.5 のリリースノートを読み返しています。
これ、なかなかすごいんですよ。Microsoft AI が 6 月 2 日付で公開した自社製の画像生成・編集モデルで、Arena の単画像編集リーダーボードで Elo 1403 を出して 2 位に入った、という話。Gemini 3 Pro Image Preview が 1388、Nano Banana 2 が 1389 だったので、Google の最新世代と DeepMind の話題モデルを、Microsoft が自分のところのモデルで抜いた格好になります。
要はこういうことですね。Microsoft はこれまで、画像生成は OpenAI の DALL-E と Sora をブランディングの軸にしてきました。Copilot Image Creator の裏側は基本的に OpenAI のモデルで、自社製は補助的、というのが運用の温度感だったわけです。ここに来て「自社製でリーダーボード 2 位」と公言したことが、関係性の地殻変動として読める箇所です。
LMArena の単画像編集(image editing)リーダーボードは、ユーザーが 2 つのモデルの出力を匿名比較して投票する、という Elo ベースの仕組み。1403 と 1388 の差は約 15 ポイントで、ベンチマーク的には「明確に強い」とまでは言いにくい接近戦ですが、頂点付近で 1 位を狙える位置に来た意味は別の話。
ちなみに、首位を取っているのは(公開時点の情報では)Black Forest Labs 系の FLUX 系列、と読める数字でした。Gemini 3 Pro Image Preview と Nano Banana 2 を後ろに置いた、というのが今回 Microsoft が強調したかったところです。
ベンチマーク数字を額面で受け取らないのは大前提として、Arena の比較投票はユーザー目線の「編集の手触り」が反映されやすい指標ではあります。プロンプトに忠実か、構図を壊さずに小修正が効くか、テキストの再現が崩れないか、というあたりが投票の判断材料になりがちなので、業務寄りの編集タスクに強い、という主張は読み取れます。
技術ベンチマーク以上に効くのが、流通面の話です。Microsoft は MAI-Image-2.5 を PowerPoint と OneDrive に統合する、と書いています。
PowerPoint ではプロンプトからプレゼン向けの画像やスライドを生成する導線、OneDrive では保存済み写真から不要物を消す・背景を整える・元のシーンを保ったまま補正する導線が説明されています。Microsoft 365 の日常導線に新しい画像生成・編集エンジンが配られる、というふうに読むと、対象ユーザー数の規模感が違ってきます。
合わせて、Azure AI Foundry でも提供される、と書かれています。開発者が API 経由で叩ける流通経路がある、という意味で、自前プロダクトに組み込みたいエンジニアにとっても無視できない選択肢が増えた格好。Flash 版は「本番ワークロード向け」と説明されていて、品質よりレイテンシとコストを取りたいユースケース(大量バッチ編集、ECサイトの商品画像処理、ユーザー投稿の自動編集)に振った位置づけのようです。
ちょっと立ち止まって考えると、Microsoft が自社モデルを連発しているのは、ここ半年で MAI-Voice-1(音声)、MAI-Thinking-1(推論モデル、6 月 3 日に弊サイトでも扱いました)、そして今回の MAI-Image-2.5 と MAI-Code-1-Flash、というラインナップが続いた流れです。
OpenAI との関係を切るわけではない、というのが現状の建てつけだとは思います。Copilot のフロントエンドや GPT-5 系列の利用権は維持されていて、MAI 系は「自社で持ちきれる範囲」を内製で押さえる、というポートフォリオ運用に見える。ただ、画像・音声・推論・コードという主要モダリティで「自社製で頂点付近を狙える」と数字で見せ始めたのは、5 年後の交渉力の話としては地味に大きい動きです。
個人的には、こういう「気がついたら自社モデルが棚に並んでいた」系の動きが、長期で効くと腑に落ちる話だと感じます。
直接の影響線は、Microsoft 365 を業務で使っている層に出てきます。日本国内の有償 Microsoft 365 ユーザーは数百万席規模で、PowerPoint で資料を作る人の比率は相当に高い。MAI-Image-2.5 が日本リージョンに展開された段階で、社内資料の「絵が欲しい」「ここの背景だけ消したい」のニーズが、外部ツールに行かずに PowerPoint 内で完結する可能性が一段上がります。
OneDrive 統合は、ストレージにある既存画像への「軽い編集」を一括でかけられる方向に効く。マーケ部門や広報の素材整理、教育機関の教材作成あたりでは、地味に時短が見込めます。
開発者側では、Azure AI Foundry 経由で API を叩ける、という意味で、Copilot 連携アプリや SaaS への組み込みが現実的になります。Adobe Firefly や Black Forest Labs の API と比較したときに、Azure 内で完結する課金体系・データ保存ポリシーの簡便さが差別化要因になりそう、と踏んでいます。
論文や技術レポートが出ていないので、サイズ・学習データといった内部仕様はまだ読めません。Arena の Elo 差も接戦である以上、特定タスク(テキストの再現、複雑な構図)で Gemini 3 や Nano Banana に競り負けるシナリオは普通にあり得ます。
Flash 版は本番ワークロード向け、と書かれていますが、品質劣化のラインがどこに設定されているかは現時点で読み切れません。PowerPoint 内の編集に Flash 版が割り当てられるのか、フル版が動くのかも、提供開始後にユーザー側で観察する話。
まあ、急がなくていいんですけど、Microsoft 365 を社内で動かしている情シスは、画像系の新エンジン到来を「ガバナンスの更新」項目として早めに棚卸ししておくと、後々詰まらないはずです。続報、追います。
情報元: Microsoft AI — Introducing MAI-Image-2.5
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。