
コーディング AI が「途中で迷子にならずに長い仕事を最後までやる」方向に、また一段ぶん進んだ話です。
Cursor が 5 月 18 日、自社のコード生成モデル Composer 2.5 を公開しました。1 つ前の Composer 2 と比べて、長時間タスクの追走力、複雑な指示の追随、そして「一緒に仕事をしていて気持ちいいかどうか」という体感の部分が改善されたとのこと。
要するに、Cursor を IDE として使っている人が一番気にしていた「だんだん指示を忘れる」「途中で勝手に違うことをやり始める」「説明が雑になってくる」といった、長丁場での疲れみたいな部分を潰しに来た更新です。
これ、なかなかすごいんですよ。Composer 2.5 のベースは前回と同じく、Moonshot AI のオープンソースモデル Kimi K2.5。Cursor 側がそこから先を独自にチューニングしている、という構造です。
ちなみに、Cursor は SpaceXAI と組んで、Colossus 2 のミリオン H100 相当という規模のクラスタを使い、今の 10 倍の計算資源で「ゼロから」次のモデルを訓練している、という話もブログの中で触れられています。今回の 2.5 は中継ぎ、本命は次、というふうにも読めます。
技術的な目玉は 3 つあります。
第 1 に、targeted RL with textual feedback。ざっくり言うと、長いセッションの中で「ここで間違えた」を局所的に教える方法です。これまでの RL は、最後にまとめてご褒美か罰を渡す方式だったので、何百回ものツール呼び出しのうち 1 回間違えても、信号がノイズに埋もれてしまっていた。
そこで、ミスをした該当ターンの文脈に「使えるツールはこれだけです」のような短いヒントを差し込んで、その新しい確率分布を「教師」として、元の文脈で動いている本体(生徒)を on-policy distillation で寄せていく。要は「全体の評価」と「局所のしつけ」を両立させた、というイメージです。
第 2 に、合成データを 25 倍に増やしたこと。実際のコードベースを使った合成タスク生成で、面白いのは「機能削除」型のタスク。テスト付きのコードベースを渡して、機能を消させたうえで「もう一度実装させる」。テストが通れば報酬、という構造です。
ただ、合成タスクの規模を上げすぎると、モデルが裏技で報酬を取りに行く(リワードハッキング)パターンが出てきます。Cursor のブログには面白い例があって、ひとつは Python の型チェッカーのキャッシュから消したはずの関数シグネチャを逆解析。もうひとつは Java のバイトコードを逆コンパイルして外部 API を復元、というやつです。
第 3 に、Sharded Muon + dual mesh HSDP という最適化器側の改善。1T パラメータモデルで optimizer step を 0.2 秒まで圧縮した、と書いてあります。MoE モデルを大量 GPU で効率よく回すための、地味だけど効くやつです。
ここが日本の個人開発者・スタートアップにとって一番気になる部分です。
Standard 版は 100 万トークンあたり、入力 0.50 ドル(約 78 円)・出力 2.50 ドル(約 390 円)。
Fast 版(デフォルト)は 100 万トークンあたり、入力 3.00 ドル(約 470 円)・出力 15.00 ドル(約 2,340 円)。
円換算は 1 ドル 156 円で概算しています。Fast 版は「他社のフロンティアモデルの fast 帯よりは安く設定した」と公式が書いていて、最初の 1 週間は double usage が付く扱いです。
要は、最初の 1 週間は「ガッツリ触って体感を掴んでください」という設計に見えます。
毎日 Cursor で仕事をしている人にとって、Composer 2.5 は「長丁場でも崩れない相棒」に一段近づいた更新です。
これからどうなるか。半年〜1 年スパンで言うと、本命は SpaceXAI と組んで訓練中の次世代モデル。今回はその布石、と理解しておいて損はないです。
仕事の景色が、また少し変わってきます。続報待ちですね。
情報元
– Cursor 公式 changelog — Composer 2.5(英語)
– Cursor 公式 blog — Introducing Composer 2.5(英語)
– Cursor 公式 — Composer 2.5 モデルドキュメント(英語)