
数字を見よう。生命科学の実務をどこまでこなせるか、AIに750題を解かせた。専門家ルーブリックによる評価スコアは、GPT-Rosalindで36.1%。これが今の現在地だ。
OpenAI が LifeSciBench というベンチマークを公開した。バイオと製薬の現場で働く科学者 173 名が関わり、750 問の課題と、専門家が書いた採点基準を用意したという。証拠の扱い、分析、設計、科学的推論、検証、伝達まで、研究の流れを 7 つの領域でなぞる作りだ。要するに「論文を量産できるか」ではなく「研究の手仕事ができるか」を測る、ということ。
主役は OpenAI の生命科学向けエージェント GPT-Rosalind。専門家ルーブリックによる全体スコアを、GPT-5.5の25.7%から36.1%へ引き上げた。ここがポイントで、これは750題中の単純な正答率ではない。「残り6割を不正解」と読むのも誤りだ。複数の採点基準で、回答がどこまで要件を満たしたかを集計した数字です。
過大評価する記事が嫌いなので、はっきり書く。「AI が科学者の仕事を奪う」はまだ早い。少なくともこのベンチの数字は、そう言っている。
競合の話。GPT-Rosalind は 750 問中 386 問で平均点トップ。一方で Gemini 3.1 Pro が 214 問で首位を取った、とある。つまり一強ではない。問題の種類によって勝ち負けが入れ替わる。ここがポイントで、いまの科学 AI は「全部こなす万能選手」ではなく、得意分野で勝ったり負けたりする専門職の集まり、という段階にある。
ゲノミクスや定量生物学では GPT-Rosalind が 21.6%、GPT-5.5 が 20.4%。差は小さい。ただ長時間かかる分析タスクではトークンを約 31% 節約した、という。性能だけでなく、回すコストの差も効いてくる、という話だ。
収集された情報によれば、図表やデータファイルを扱う課題になると成績が落ちる傾向がある、とされる(この点は公式ページで裏取りしてから確定させる)。現場の研究は、きれいな文章問題ではない。グラフを読み、生データを触り、矛盾を見つける作業だ。そこが弱いなら、AI はまだ「優秀な下調べ係」であって「研究者の代わり」ではない。
日本にとっての意味も冷静に。国内の製薬会社や大学が AI を研究に組み込むとき、頼るのは結局こうした海外モデルだ。だからこそ、こういうベンチマークが公開された意味は大きい。「使えるところ」と「まだ任せられないところ」を、感覚ではなく数字で線引きできる。導入の意思決定をする側からすると、36.1% という数字は、夢を見すぎないための良いブレーキになる。勝ち筋はある。ただし、過信した側から損をする。そういう話。
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。