
オープンモデルの底上げが止まらない。MiniMax が新モデル「M3」を、重みごと公開した。中国発のオープン勢が、また一段、上のラインに来たという話。
数字を見よう。総パラメータは約428B(4280億)。ただし1回の処理で実際に動くのは約23B(230億)だけ。専門家混合(MoE)という、知識は大きく持ちつつ計算は一部だけ走らせる方式だ。要するに、図書館の蔵書は膨大でも、毎回読むのは数冊、という設計。だから巨大なのに、動かすコストは抑えられる。
M3の売りは「ネイティブ・マルチモーダル」。後付けで画像認識をくっつけたのではなく、テキストと画像と動画を最初から混ぜて学習している、と説明されている。ここがポイントで、扱えるのは一種類のモデルで文章も写真も動画も、という一台何役のつくり。MiniMax 自身は、フロンティア級のコーディング性能・100万トークンの文脈・画像と動画の入力、この3つを単一構成で同時に満たした初のオープンウェイトモデルだ、としている。
性能の物差しも置いておく。プログラミングの実務的なベンチマーク SWE-Bench Pro で59.0%。報道では、GPT-5.5の58.6%をわずかに上回った、という位置づけだ。正直、オープンモデルが商用フラッグシップと小数点で競る時代になったのか、というのが冷静な感想。
速さの数字も効く。新しく入れた MiniMax Sparse Attention(MSA)という仕組みで、100万トークンという長い文脈でも、前世代の M2 と比べてプリフィル9倍超・デコード15倍超まで速くなった、とされる。長い資料を丸ごと放り込んでも、待たされにくい。長文処理のコストは、これまでオープンモデルの泣きどころだった。そこを一段で詰めてきた格好だ。
価格も見ておこう。公式価格表では、標準ティアの入力は512K以下なら現行割引後で100万トークンあたり0.30ドル、512K超の長文入力は0.60ドルだ。日本円でおよそ45〜90円(1ドル=約150円で換算)。トークンの量感はつかみにくいが、長文を大量に処理する用途では、この水準は効く。賢さの競争から、安さと速さの競争へ。勝ち筋はそこにある。
ただし、過熱は禁物。ベンチマークの数字は条件で動くし、商用モデルと完全に横並びというわけではない。日本にとっての意味で言うと、ここが大きい。重みが公開されているから、社内サーバーや国内のクラウドに自前で載せられる。データを外に出しにくい医療・金融・自治体でも、手元で動かして検証する余地が広がる。「使うかどうか」ではなく「どこに置いて、何に効かせるか」を、現場で試せる段階に入ったという話。
情報元: MiniMax M3: Frontier Coding, 1M Context, Native Multimodality — All in One Model(MiniMax)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。