🕛 2026.6.20 22:37 文：ズバッとショウ

生命科学の実務750題、専門AIでも評価スコア36.1%。数字で見えた現在地

数字を見よう。生命科学の実務をどこまでこなせるか、AIに750題を解かせた。専門家ルーブリックによる評価スコアは、GPT-Rosalindで36.1%。これが今の現在地だ。

OpenAI が LifeSciBench というベンチマークを公開した。バイオと製薬の現場で働く科学者 173 名が関わり、750 問の課題と、専門家が書いた採点基準を用意したという。証拠の扱い、分析、設計、科学的推論、検証、伝達まで、研究の流れを 7 つの領域でなぞる作りだ。要するに「論文を量産できるか」ではなく「研究の手仕事ができるか」を測る、ということ。

36.1% という数字をどう読むか

主役は OpenAI の生命科学向けエージェント GPT-Rosalind。専門家ルーブリックによる全体スコアを、GPT-5.5の25.7%から36.1%へ引き上げた。ここがポイントで、これは750題中の単純な正答率ではない。「残り6割を不正解」と読むのも誤りだ。複数の採点基準で、回答がどこまで要件を満たしたかを集計した数字です。

過大評価する記事が嫌いなので、はっきり書く。「AI が科学者の仕事を奪う」はまだ早い。少なくともこのベンチの数字は、そう言っている。

386 問で首位。でも 214 問は Gemini に獲られている

競合の話。GPT-Rosalind は 750 問中 386 問で平均点トップ。一方で Gemini 3.1 Pro が 214 問で首位を取った、とある。つまり一強ではない。問題の種類によって勝ち負けが入れ替わる。ここがポイントで、いまの科学 AI は「全部こなす万能選手」ではなく、得意分野で勝ったり負けたりする専門職の集まり、という段階にある。

ゲノミクスや定量生物学では GPT-Rosalind が 21.6%、GPT-5.5 が 20.4%。差は小さい。ただ長時間かかる分析タスクではトークンを約 31% 節約した、という。性能だけでなく、回すコストの差も効いてくる、という話だ。

図表とデータファイルに、まだ弱い

収集された情報によれば、図表やデータファイルを扱う課題になると成績が落ちる傾向がある、とされる（この点は公式ページで裏取りしてから確定させる）。現場の研究は、きれいな文章問題ではない。グラフを読み、生データを触り、矛盾を見つける作業だ。そこが弱いなら、AI はまだ「優秀な下調べ係」であって「研究者の代わり」ではない。

日本にとっての意味も冷静に。国内の製薬会社や大学が AI を研究に組み込むとき、頼るのは結局こうした海外モデルだ。だからこそ、こういうベンチマークが公開された意味は大きい。「使えるところ」と「まだ任せられないところ」を、感覚ではなく数字で線引きできる。導入の意思決定をする側からすると、36.1% という数字は、夢を見すぎないための良いブレーキになる。勝ち筋はある。ただし、過信した側から損をする。そういう話。

情報元: LifeSciBench の紹介（OpenAI）

みんなの反応

筋

元プロの筋トレ屋
（スポーツジム経営・元プロ野球選手・40代男性）

数字が出たのが一番でかい。36.1%を打率で言えば三割六分、悪くないが優勝はできん。386勝214敗で相手に取りこぼす、ってのも勝負の世界そのものだ。どの球種に強いかで起用を決める、AIもそういう使い方になるって話だな。

く

くちなしさん
（パート勤務・主婦・50代女性）

最強でも36点と聞くと、AIって全部できるわけじゃないんですね、と少しほっとしました。テレビだと何でもできるみたいに言うものだから。使えるところだけ任せれば十分なんだと分かって、かえって気が楽になりました。

永

永田町ウォッチャー
（政治コンサルタント・元政治秘書・30代男性）

Gemini 3.1 Proが214問で首位、という競争構図は政策的にも示唆的です。評価軸そのもの、つまりベンチマークを海外勢が握る構造をどう見るか。国産モデルが視界に入らないなかで、せめて評価の土俵には日本も関わっておきたいところ。

書

書道のおねえさん
（書道教室主宰・元看護師・70代女性）

看護をしていた身からすると、図表やデータの扱いに弱い、というのが妙に腑に落ちます。現場はグラフや検査値の読み取りが命でしたから。そこが残るうちは、まだ人の出番がある、ということですね。数字で線が引けるのは、ありがたいことです。

※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。

生命科学の実務750題、専門AIでも評価スコア36.1%。数字で見えた現在地

36.1% という数字をどう読むか

386 問で首位。でも 214 問は Gemini に獲られている

図表とデータファイルに、まだ弱い

いいね:

関連

目次Toggle Table of ContentToggle

フォロー

人気記事

カテゴリー

最新記事