
「AI が ER の医者より正確」という見出しの実態を、研究側の言葉で見にいきたい話です。
ハーバード大医学大学院(HMS)とベス・イスラエル・ディーコネス医療センターの研究チームが、Science 誌に論文を発表 しました。タイトルは長くなるので割愛しますが、要は OpenAI の大規模言語モデル o1 と 4o を、実際の救急室(ER)の患者カルテで医師と比較した、というものです。
ベス・イスラエルの ER に実際に来院した 76 名の患者 を対象に、内科の attending physician(指導医)2 名による診断と、o1 / 4o が同じ電子カルテ情報から出した診断とを比較。判定はさらに別の attending 2 名が、どちらが AI でどちらが人かを伏せた状態で評価する作りです。
論文と HMS プレスリリースが一致して伝えている結果は次のとおり。
初期トリアージ時点(患者情報が最も少なく、判断の緊急度が最も高い段階)で、o1 は 67% の確率で正解または近い診断 を提示。これに対し医師 A は 55%、医師 B は 50%。「o1 は各診断ポイントで 2 名の医師と 4o を上回るか同等だった」と論文は述べています。研究の中心著者である Arjun Manrai 氏は HMS の発表で「ほぼすべてのベンチマークで AI が過去モデルと医師ベースラインを上回った」とコメント。
数字だけ見るとセンセーショナルなのですが、研究側はかなり慎重な書き方をしています。
ここからが今回の本題。論文と HMS は、結果と同じ強さで限界を示しています。
第一に、実際の生死判断ができる段階ではない こと。論文は、現実の患者ケアで評価するための前向き臨床試験が必要だという言い方で締めくくっています。
第二に、画像など非テキスト情報には弱い こと。今回 AI に与えたのはテキスト化されたカルテ情報だけ。CT・X 線などの画像読影や、患者の表情・所作といった非言語情報は対象外です。論文も「現行の基盤モデルは非テキスト入力上の推論で限界がある」と明記しています。
第三に、AI 診断の責任の所在が制度として未整備。TechCrunch が紹介した Rodman 氏のコメントでも、AI 診断のアカウンタビリティの公式枠組みはまだ整っていない、という認識が示されています。
TechCrunch の記事中では、ER 医の Kristen Panthagani 氏が個人ブログでこの研究に対する違和感を述べています。要点は 「AI と比較された医師は ER 専門医ではなく内科の attending」 だった、という点。
Panthagani 氏は「AI を医師の臨床能力と比較するなら、その専門領域で実際に診療している医師と比べるべき」と指摘。「皮膚科医と LLM が脳神経外科の試験で勝負しても、あまり意味のあることは分からない」という比喩で批判しています。さらに「ER 医として初めて患者を見る私の最優先は最終診断を当てることではなく、目の前の患者が死にうる状態かを判断すること」とも書いています。
ハーバードと Beth Israel という米国でも屈指の医療研究機関が、Science 誌で「LLM が複雑な医療ケースで臨床テストに値する水準に達した」と公式に書いた、という事実は重い。日本でも医療 AI の臨床試験を設計する側、保険診療で AI 補助を組み込もうとする病院、AI ベンダーで医療領域を狙うチームにとっては、一次情報として読んでおく価値のある研究です。とはいえ、ER 医の批判が示すように、誰と誰を比べるかで結論の意味は大きく変わる。AI による診断補助が「現場で本当に何の代替になるのか」は、まだ始まったばかりの議論ですね。
Science 誌掲載論文(doi.org/10.1126/science.adz4433、英語)
Harvard Medical School プレスリリース(英語)