🕛 2026.6.4 19:08 文:かみくだきりく

Microsoft「MAI-Image-2.5」公開。Arena 画像編集で Gemini 3 抜き 2 位

Microsoft「MAI-Image-2.5」公開。Arena 画像編集で Gemini 3 抜き 2 位
X はてブ LINE Feedly

武蔵小山の机で、OneDrive をスクロールしながら、MAI-Image-2.5 のリリースノートを読み返しています。

これ、なかなかすごいんですよ。Microsoft AI が 6 月 2 日付で公開した自社製の画像生成・編集モデルで、Arena の単画像編集リーダーボードで Elo 1403 を出して 2 位に入った、という話。Gemini 3 Pro Image Preview が 1388、Nano Banana 2 が 1389 だったので、Google の最新世代と DeepMind の話題モデルを、Microsoft が自分のところのモデルで抜いた格好になります。

要はこういうことですね。Microsoft はこれまで、画像生成は OpenAI の DALL-E と Sora をブランディングの軸にしてきました。Copilot Image Creator の裏側は基本的に OpenAI のモデルで、自社製は補助的、というのが運用の温度感だったわけです。ここに来て「自社製でリーダーボード 2 位」と公言したことが、関係性の地殻変動として読める箇所です。

Arena 2 位という数字を、どう受け取るか

LMArena の単画像編集(image editing)リーダーボードは、ユーザーが 2 つのモデルの出力を匿名比較して投票する、という Elo ベースの仕組み。1403 と 1388 の差は約 15 ポイントで、ベンチマーク的には「明確に強い」とまでは言いにくい接近戦ですが、頂点付近で 1 位を狙える位置に来た意味は別の話。

ちなみに、首位を取っているのは(公開時点の情報では)Black Forest Labs 系の FLUX 系列、と読める数字でした。Gemini 3 Pro Image Preview と Nano Banana 2 を後ろに置いた、というのが今回 Microsoft が強調したかったところです。

ベンチマーク数字を額面で受け取らないのは大前提として、Arena の比較投票はユーザー目線の「編集の手触り」が反映されやすい指標ではあります。プロンプトに忠実か、構図を壊さずに小修正が効くか、テキストの再現が崩れないか、というあたりが投票の判断材料になりがちなので、業務寄りの編集タスクに強い、という主張は読み取れます。

PowerPoint と OneDrive に統合される、という運用面

技術ベンチマーク以上に効くのが、流通面の話です。Microsoft は MAI-Image-2.5 を PowerPoint と OneDrive に統合する、と書いています。

PowerPoint ではプロンプトからプレゼン向けの画像やスライドを生成する導線、OneDrive では保存済み写真から不要物を消す・背景を整える・元のシーンを保ったまま補正する導線が説明されています。Microsoft 365 の日常導線に新しい画像生成・編集エンジンが配られる、というふうに読むと、対象ユーザー数の規模感が違ってきます。

合わせて、Azure AI Foundry でも提供される、と書かれています。開発者が API 経由で叩ける流通経路がある、という意味で、自前プロダクトに組み込みたいエンジニアにとっても無視できない選択肢が増えた格好。Flash 版は「本番ワークロード向け」と説明されていて、品質よりレイテンシとコストを取りたいユースケース(大量バッチ編集、ECサイトの商品画像処理、ユーザー投稿の自動編集)に振った位置づけのようです。

自社モデル化を進める、Microsoft の遠回りな筋道

ちょっと立ち止まって考えると、Microsoft が自社モデルを連発しているのは、ここ半年で MAI-Voice-1(音声)、MAI-Thinking-1(推論モデル、6 月 3 日に弊サイトでも扱いました)、そして今回の MAI-Image-2.5 と MAI-Code-1-Flash、というラインナップが続いた流れです。

OpenAI との関係を切るわけではない、というのが現状の建てつけだとは思います。Copilot のフロントエンドや GPT-5 系列の利用権は維持されていて、MAI 系は「自社で持ちきれる範囲」を内製で押さえる、というポートフォリオ運用に見える。ただ、画像・音声・推論・コードという主要モダリティで「自社製で頂点付近を狙える」と数字で見せ始めたのは、5 年後の交渉力の話としては地味に大きい動きです。

個人的には、こういう「気がついたら自社モデルが棚に並んでいた」系の動きが、長期で効くと腑に落ちる話だと感じます。

日本のユーザーには何が変わるか

直接の影響線は、Microsoft 365 を業務で使っている層に出てきます。日本国内の有償 Microsoft 365 ユーザーは数百万席規模で、PowerPoint で資料を作る人の比率は相当に高い。MAI-Image-2.5 が日本リージョンに展開された段階で、社内資料の「絵が欲しい」「ここの背景だけ消したい」のニーズが、外部ツールに行かずに PowerPoint 内で完結する可能性が一段上がります。

OneDrive 統合は、ストレージにある既存画像への「軽い編集」を一括でかけられる方向に効く。マーケ部門や広報の素材整理、教育機関の教材作成あたりでは、地味に時短が見込めます。

開発者側では、Azure AI Foundry 経由で API を叩ける、という意味で、Copilot 連携アプリや SaaS への組み込みが現実的になります。Adobe Firefly や Black Forest Labs の API と比較したときに、Azure 内で完結する課金体系・データ保存ポリシーの簡便さが差別化要因になりそう、と踏んでいます。

限界と、Flash 版の使い分け

論文や技術レポートが出ていないので、サイズ・学習データといった内部仕様はまだ読めません。Arena の Elo 差も接戦である以上、特定タスク(テキストの再現、複雑な構図)で Gemini 3 や Nano Banana に競り負けるシナリオは普通にあり得ます。

Flash 版は本番ワークロード向け、と書かれていますが、品質劣化のラインがどこに設定されているかは現時点で読み切れません。PowerPoint 内の編集に Flash 版が割り当てられるのか、フル版が動くのかも、提供開始後にユーザー側で観察する話。

まあ、急がなくていいんですけど、Microsoft 365 を社内で動かしている情シスは、画像系の新エンジン到来を「ガバナンスの更新」項目として早めに棚卸ししておくと、後々詰まらないはずです。続報、追います。

情報元: Microsoft AI — Introducing MAI-Image-2.5

みんなの反応

島ぐらしCTO
(ゲストハウス経営/元IT企業CTO・60代男性)

現役 CTO 時代に Microsoft 365 の年次更新を回していた身としては、PowerPoint や OneDrive の裏でどの画像モデルが動いているかが「同じサブスクで品質が変わる」要因になっていく感覚は、5 年前から薄々ありました。MAI-Image-2.5 が入る範囲は段階的に見たいですが、企業側は「現状の挙動を録画しておく」のが今やれることだと思います。海の音聞きながら言うのもなんですが、ベンダー多元化の選択肢として悪くない動きです。
救急ナース
(看護師・総合病院救急病棟・30代女性)

病院でも Copilot のテスト導入が始まっていて、患者さん情報を扱う関係で「結局どこのモデルが動いてるんですか」が現場でいちばん聞かれます。PowerPoint や OneDrive の画像生成まで Microsoft 製と説明できるラインが増えるなら、説明する側としてはありがたい。ただ医療現場では、生成画像を資料に使うときの誤解や過剰演出も怖いので、院内ルールを先に決めておきたいです。
書道のおねえさん
(書道教室主宰/元看護師・70代女性)

「自分の声で考える」というのは、書の世界でも一番大事にされる話です。誰かの手本をなぞっているうちは、その人の真似事の域を出られない。Microsoft という大きな会社が、OpenAI の真似事ではなく自分の墨で書き始めたという宣言は、技術の話を越えて、表現の独立宣言のように読みました。ふと、これは今を生きる若い書道家にも通じる物語かもしれません。
みさきの美容室
(美容師/SNSインフルエンサー・20代女性)

サブスクって、契約は同じでも中身がしれっと変わるじゃないですか。Copilot もそうなる可能性があるって読めて、お客さんに発信するときに「ツール選び」じゃなくて「ツールの中身選び」の時代になってきたな、と。サロンの予約管理で Copilot 使ってる勢としては、応答の癖が変わるなら早めに気づきたいです。
年金ぐらしのじいじ
(年金生活者/元市役所職員・70代男性)

現役の頃、自治体システムの調達で「どの会社の何の技術が中に入っているか」を必ず仕様書に書かせるよう指導された記憶があります。Microsoft が自社の頭脳を別建てで持ったことは、行政や金融の調達担当にとっては「説明しやすい選択肢が一つ増えた」という話で、これは地味に効きます。孫が触っている Copilot とは、別の話に聞こえるんですけどね。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

X はてブ LINE Feedly