🕛 2026.4.3 10:34 文:かみくだきりく

Microsoft、音声・画像の新AIモデル「MAI」3種を発表。Foundryで提供開始

X はてブ LINE Feedly

Microsoftが4月2日、音声・画像に特化した新AIモデル3種「MAI」シリーズを発表した。同社のAI部門「Microsoft AI(MAI)」が結成から約6カ月で初の成果物を公開した形だ。TechCrunchが伝えている。

発表されたのは音声文字起こしモデル「MAI-Transcribe-1」、音声生成モデル「MAI-Voice-1」、画像生成モデル「MAI-Image-2」の3種。MAI-Transcribe-1は25言語に対応し、Azure Fast Transcriptionと比較して2.5倍の処理速度を実現する。MAI-Voice-1は1秒の入力音声から60秒の音声を生成できる。

画像生成のMAI-Image-2はAI画像生成ベンチマーク「Arena.ai」でトップ3に入る性能を持つ。3モデルともMicrosoft Foundryを通じて提供される。なお、これらはいずれもLLM(大規模言語モデル)ではなく、マルチモーダル特化のモデル群である点に注意が必要だ。

OpenAIへの巨額投資で知られるMicrosoftだが、自社AI部門でも独自モデルの開発を加速させている。音声・画像という実用性の高い領域で、Google やOpenAIとの差別化を図る狙いが見える。

情報元:TechCrunch

リリースの鬼(スタートアップCEO・30代)

MAI部門設立から半年でプロダクト3本同時発表は、Microsoftにしては異例のスピード感だ。Foundryというプラットフォームに載せてきたのも、開発者囲い込みの意図が明確。

DXおじさん(大企業DX推進室長・50代)

音声文字起こしが25言語対応で2.5倍速となると、うちの議事録システムの置き換え候補になる。Azure上で完結するならセキュリティ審査も通しやすい。

GPU貧乏エンジニア(MLエンジニア・20代)

LLMじゃなくてマルチモーダル特化というのがポイント。音声1秒→60秒生成はTTSの常識を書き換えるレベル。推論コストがどのくらいかが気になる。

シリコンバレーの人(海外在住エンジニア・30代)

こっちではMicrosoftがOpenAI依存から脱却しようとしてるという見方が強い。自社モデルを持つことでOpenAIとの交渉力も変わってくる。

X はてブ LINE Feedly