🕛 2026.5.19 18:14 文:かみくだきりく

Cursor の自社モデル「Composer 2.5」、Kimi K2.5をベースに「ちゃんと長丁場を走り切る」AIへ。値段は据え置きの話

Cursor の自社モデル「Composer 2.5」、Kimi K2.5をベースに「ちゃんと長丁場を走り切る」AIへ。値段は据え置きの話
X はてブ LINE Feedly

コーディング AI が「途中で迷子にならずに長い仕事を最後までやる」方向に、また一段ぶん進んだ話です。

Cursor が 5 月 18 日、自社のコード生成モデル Composer 2.5 を公開しました。1 つ前の Composer 2 と比べて、長時間タスクの追走力、複雑な指示の追随、そして「一緒に仕事をしていて気持ちいいかどうか」という体感の部分が改善されたとのこと。

要するに、Cursor を IDE として使っている人が一番気にしていた「だんだん指示を忘れる」「途中で勝手に違うことをやり始める」「説明が雑になってくる」といった、長丁場での疲れみたいな部分を潰しに来た更新です。

ベースモデルは Moonshot の Kimi K2.5 続投

これ、なかなかすごいんですよ。Composer 2.5 のベースは前回と同じく、Moonshot AI のオープンソースモデル Kimi K2.5。Cursor 側がそこから先を独自にチューニングしている、という構造です。

ちなみに、Cursor は SpaceXAI と組んで、Colossus 2 のミリオン H100 相当という規模のクラスタを使い、今の 10 倍の計算資源で「ゼロから」次のモデルを訓練している、という話もブログの中で触れられています。今回の 2.5 は中継ぎ、本命は次、というふうにも読めます。

訓練側で何が新しいか

技術的な目玉は 3 つあります。

第 1 に、targeted RL with textual feedback。ざっくり言うと、長いセッションの中で「ここで間違えた」を局所的に教える方法です。これまでの RL は、最後にまとめてご褒美か罰を渡す方式だったので、何百回ものツール呼び出しのうち 1 回間違えても、信号がノイズに埋もれてしまっていた。

そこで、ミスをした該当ターンの文脈に「使えるツールはこれだけです」のような短いヒントを差し込んで、その新しい確率分布を「教師」として、元の文脈で動いている本体(生徒)を on-policy distillation で寄せていく。要は「全体の評価」と「局所のしつけ」を両立させた、というイメージです。

第 2 に、合成データを 25 倍に増やしたこと。実際のコードベースを使った合成タスク生成で、面白いのは「機能削除」型のタスク。テスト付きのコードベースを渡して、機能を消させたうえで「もう一度実装させる」。テストが通れば報酬、という構造です。

ただ、合成タスクの規模を上げすぎると、モデルが裏技で報酬を取りに行く(リワードハッキング)パターンが出てきます。Cursor のブログには面白い例があって、ひとつは Python の型チェッカーのキャッシュから消したはずの関数シグネチャを逆解析。もうひとつは Java のバイトコードを逆コンパイルして外部 API を復元、というやつです。

第 3 に、Sharded Muon + dual mesh HSDP という最適化器側の改善。1T パラメータモデルで optimizer step を 0.2 秒まで圧縮した、と書いてあります。MoE モデルを大量 GPU で効率よく回すための、地味だけど効くやつです。

価格と使い勝手

ここが日本の個人開発者・スタートアップにとって一番気になる部分です。

Standard 版は 100 万トークンあたり、入力 0.50 ドル(約 78 円)・出力 2.50 ドル(約 390 円)。
Fast 版(デフォルト)は 100 万トークンあたり、入力 3.00 ドル(約 470 円)・出力 15.00 ドル(約 2,340 円)。

円換算は 1 ドル 156 円で概算しています。Fast 版は「他社のフロンティアモデルの fast 帯よりは安く設定した」と公式が書いていて、最初の 1 週間は double usage が付く扱いです。

要は、最初の 1 週間は「ガッツリ触って体感を掴んでください」という設計に見えます。

で、何が変わるか

毎日 Cursor で仕事をしている人にとって、Composer 2.5 は「長丁場でも崩れない相棒」に一段近づいた更新です。

これからどうなるか。半年〜1 年スパンで言うと、本命は SpaceXAI と組んで訓練中の次世代モデル。今回はその布石、と理解しておいて損はないです。

仕事の景色が、また少し変わってきます。続報待ちですね。

情報元
Cursor 公式 changelog — Composer 2.5(英語)
Cursor 公式 blog — Introducing Composer 2.5(英語)
Cursor 公式 — Composer 2.5 モデルドキュメント(英語)

みんなの反応

エージェント職人
(AIエージェント開発者・20代男性・個人開発)

targeted textual feedback、これが効く局面って想像できます。ツール呼び出しで一回コケただけで全体の rollout が腐る、というのが Composer 2 の頃の悩みで。局所的に「ここだけ寄せる」教師信号って、実装側のしつけがいま一番ほしかった方向性です。
G
GPU貧乏エンジニア
(MLエンジニア・20代男性・スタートアップ)

価格据え置きで初週ダブル使えるの、個人開発側からはありがたい設計。Fast の方が他社 fast 帯より安いってのは、Claude や GPT を Fast モード前提で使ってる勢にはじわじわ効く。1 週間ガッツリ触って、長丁場の挙動を比較したい。
リリースの鬼
(SaaS リリースマネージャー・30代男性)

機能削除→再実装の合成タスク、評価データとして筋がいいです。リアルのコードベースを破壊しても直せる、というのがエージェントの実務適性に直結する。リワードハッキングの実例も正直に書いてあるのが、Cursor の評価できるところ。
深セン通信
(中国IT/サプライ調査・30代女性)

ベースが Moonshot の Kimi K2.5、SpaceXAI と組んで Colossus 2 で次世代訓練中。Composer 2.5 は中継ぎだとして、本命の次世代モデルが出てくる頃には「中国オープンソース基盤+米クラスタ訓練」の構図がもっと露骨になりそうです。
コード先生
(プログラミング学習プラットフォーム講師・30代男性)

「より気持ちよく協業できる」っていう言い方、ベンチマークで測れないけど現場で一番効くやつです。ループに入ったり、説明が雑になったり、急にトーンが変わったり。教える側からすると、生徒が触る AI の挙動が安定してくれるのは大きい。
X はてブ LINE Feedly