
GitHub Copilot CLIに、実験的な「Rubber Duck」機能が追加された。要はこういうことですね——ひとつのAIモデルが計画を立てたら、別の言語モデル系統のAIが独立したレビュアーとして検証する、というアプローチだ。
Claudeが主導モデルの場合、Rubber DuckはGPT-5.4で動作する。で、何が変わるかというと、自動的に3つのチェックポイント(計画後、複雑な実装後、テスト作成後)で相互確認が走る。結果、Claude Sonnet単体とOpusの性能差を74.7%埋められるようになった。
命名は「ラバーダック・デバッグ」の古典的な手法から。今はCLIで /experimental コマンドで試用可能。相補的に異なるモデルを組み合わせることで、いわば「思考の盲点」を減らす試みが見えて、なかなか興味深い。