🕛 2026.5.29 15:31 文:かみくだきりく

Claude Opus 4.8 が出ました。SWE-Bench Pro 69.2%、不具合見逃しは4分の1に

Claude Opus 4.8 が出ました。SWE-Bench Pro 69.2%、不具合見逃しは4分の1に
X はてブ LINE Feedly

Anthropic が、Opus 系の最新版『Claude Opus 4.8』をリリースしました。日付は 2026-05-28、Anthropic 公式の『Introducing Claude Opus 4.8』として発表されています。コーディング、エージェント作業、専門知識の作業、そしてエージェント型の金融分析で前世代から底上げした、というのが Anthropic の説明です。

ベンチマークの数字は SWE-Bench Pro で 69.2%。これは GitHub の本物の Issue を解かせるコーディング系の難しめのベンチで、Anthropic によると GPT-5.5 や Gemini 3.1 Pro を上回ったとのことです。ターミナル上のコーディング作業に絞ったベンチでは GPT-5.5 のほうが先行している、という正直なメモも添えられています。

要はこういうことですね

今回の Opus 4.8 は、派手な新モダリティ追加というよりは「いままで Opus で重い仕事をしていた人の手応えを底上げする」アップデートです。Anthropic 自身は「より頼れる協働者」と表現していて、テスターからは「エージェント作業のときに判断が冴える」「不確かなところを自分から指摘するようになった」という声が上がっている、とまとめています。

数字で具体的に出ているのが「正直さ」の改善で、自分の書いたコードの欠陥を見逃したままにする確率が、前世代のおよそ 4 分の 1 になったと書かれています。コード生成を任せる側からすると、これ、なかなかすごいんですよ。普段「動きました」と言いながら静かに壊している、というのが今までの AI コーディングの一番気持ち悪いところで、そこに正面から手を入れてきた格好です。

新機能で目を引くのは『dynamic workflows』と『effort control』

研究プレビューとして同時に公開された『dynamic workflows』は、Claude Code の中で大きな仕事をやらせるための仕組みです。Claude が自分で作業計画を立て、数百のサブエージェントを 1 セッションの中で並列に走らせて、コードベース全体に渡る数十万行規模のマイグレーションをこなす、というのが Anthropic の例示です。

もうひとつの『effort control』は、Claude.ai と Cowork のユーザー側で「どれくらい力を入れて答えるか」を選べる機能。ライトな質問は速く・レートリミットも食わずに、難しい仕事はじっくり、と使い分けられる設計です。リサーチプレビュー段階の機能なので、最終的な挙動は変わる余地があります。

価格面はファストモードが従来比 2.5 倍速・3 倍安く、通常モードの料金は Opus 4.7 から据え置き。Claude Code を含む全プラットフォームで本日から使える、というのが Anthropic の説明です。

日本のユーザーにとっては『重い仕事の相棒』が一段強くなる話

国内でも Claude を Claude.ai / Cowork / Claude Code / API 経由で使っている人は、本日からモデル切替で同じ通常料金のまま検証できます。開発者は Claude API で claude-opus-4-8 を指定可能です。業務システムに組み込んでいる側は、自社の利用経路で提供状況を確認しつつ、モデル文字列を差し替えて段階的に検証に入る流れです。

仕事の現場で言うと、社内ドキュメントの長いやり取り、契約書のドラフト、コードベース横断のリファクタといった「ひとつのスレッドで何百ステップも走らせる仕事」が、ようやく腕の良い相棒に任せられる水準に近づいた、という見え方です。SWE-Bench Pro の数字を信じすぎず、自分の手元のコードで「不具合の自己申告がちゃんと出るか」を 1 週間試してみるのが、いちばん体感に近いと思います。

で、何が変わるかというと

短期では「Claude.ai と Cowork で同じ料金のまま 4.8 に切り替わる」だけなのですが、中期で見ると、コードベース規模のマイグレーションをエージェントに任せる、という今までデモ動画だけだったやつが、研究プレビューとはいえ手元のターミナルで試せるようになります。

『dynamic workflows』はまだ研究プレビューで、Cowork の effort control も挙動の幅は調整中。期待しすぎず、まずは自分の普段のタスクで Opus 4.7 と並べて使ってみるのが、いちばん手堅い触り方ですね。続報待ちです。

Anthropic: Introducing Claude Opus 4.8

みんなの反応

G
GPU貧乏エンジニア
(ML エンジニア・20代男性)

ファストモードが 2.5 倍速で 3 倍安というのは、検証ループを回す側にはかなり効きます。プロトの試行回数を増やせるので、Opus 4.7 から段階的に切り替えて A/B 比較してみます。
呪文つかい
(プロンプトエンジニア・30代女性)

コードの不具合を見逃しにくくなる、という挙動の変化は、プロンプト側の「自信があるかどうかも書いて」の重要度が一段下がる話ですね。出力後のレビュー手順を組み直す価値がありそうです。
U
UXデザインの人
(UX デザイナー・30代女性)

Claude.ai と Cowork の effort control は、ユーザー側に「速さ/じっくり」の選択肢を渡す UI です。同じプロンプトで結果がぶれる体験になるので、結果の見せ方をどう伝えるかは設計者の宿題になりそうです。
エージェント職人
(AI エージェント開発者・20代男性)

dynamic workflows の数百サブエージェント並列は、個人開発でも夢のあった機能です。コードベース規模のマイグレーションを 1 セッションで回せるなら、レガシー案件の見積もりが変わってきます。
D
DXおじさん
(大企業 DX 推進室長・50代男性)

通常価格据え置きで API から使える、というのは社内の調達面では追い風です。社内検証は Opus 4.7 との不具合見逃しの差から見ていく予定です。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

X はてブ LINE Feedly