
数字を見よう。SWE-Bench Verified 70.6%。動かしたのは、80Bのうちたった3B。
AlibabaのQwenチームがHugging Faceの公式モデルカードで公開している、コーディングエージェント特化のオープンウェイトモデル「Qwen3-Coder-Next」の数字だ。ライセンスはApache 2.0。重みは誰でも持ち帰れる。
仕組みはMoE(混合専門家)。社内に512人の専門家を抱えているが、1つの仕事に呼ぶのは10人+当番1人だけ。だから総パラメータは80Bでも、1回の応答で実際に計算するのは3B分で済む。大病院に医者が80人いて、診察室に入るのは3人。それで大学病院並みの診断が出てくる、という構図だ。
成績が問題になる。実在のGitHubの不具合を直せるかを測るSWE-Bench Verifiedで70.6%。より意地悪なSWE-Bench Proで44.3%。Qwenいわく、活性パラメータが10〜20倍あるモデルに匹敵する水準とのこと。自社報告の数字である点は割り引くにしても、3B駆動でこの帯に入ってきたのは事実として重い。
実用面の設計が抜け目ない。文脈長はネイティブで262,144トークン、いわゆる256k。大きめのリポジトリを丸ごと読ませて作業させる前提の長さだ。しかもClaude Code、Cline、Trae、Qwen Codeといった既存のCLI/IDEツールにそのまま組み込めると公式が明記している。要するに、いま使っているエージェントの「頭脳」だけを差し替えられる。
中身はGated DeltaNetという線形アテンションと通常型アテンションのハイブリッド。ざっくり言えば、資料の大半は流し読みで処理し、要所だけ精読する分業で、長い作業ログを抱えても計算が膨らみにくい。vLLMやSGLangでローカルにAPIサーバーを立てる手順も公式に揃っている。
日本の現場には、これが特に効く。機密コードを外部APIに出せない案件はSIerにもメーカーにも山ほどあるし、エージェントのAPI課金は使い込むほど財布に響く。手元のサーバーで70%級のコーディングエージェントが回るなら、試さない理由を探すほうが難しい。エンジニアのスキルの軸足も「コードを書く」から「エージェントに直させて検収する」へ、また一段ずれる。
冷静に見る。Proの44.3%は、裏を返せば難問の半分以上をまだ落とすということ。思考モードなしの設計で、最上位クローズドモデルとの差も残る。第三者のベンチ検証もこれからだ。
それでも構図ははっきりしている。「最高」ではなく「十分で安い」が市場を下から侵食する、ありがちな話。Alibabaはモデルで稼ぐ気がない。水道のように使わせて、クラウドとエコシステムで回収する。コーディングエージェントの値段が上からではなく下から決まり始めた、という話。
情報元: Qwen/Qwen3-Coder-Next (Hugging Face Qwen公式モデルカード)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。