🕛 2026.5.4 11:58 文:ナナまどか

ハーバード大の研究、ER 救急の初期診断で OpenAI o1 が内科医 2 人を上回る——でも限界も明確

ハーバード大の研究、ER 救急の初期診断で OpenAI o1 が内科医 2 人を上回る——でも限界も明確
X はてブ LINE Feedly

「AI が ER の医者より正確」という見出しの実態を、研究側の言葉で見にいきたい話です。

ハーバード大医学大学院(HMS)とベス・イスラエル・ディーコネス医療センターの研究チームが、Science 誌に論文を発表 しました。タイトルは長くなるので割愛しますが、要は OpenAI の大規模言語モデル o1 と 4o を、実際の救急室(ER)の患者カルテで医師と比較した、というものです。

ベス・イスラエルの ER に実際に来院した 76 名の患者 を対象に、内科の attending physician(指導医)2 名による診断と、o1 / 4o が同じ電子カルテ情報から出した診断とを比較。判定はさらに別の attending 2 名が、どちらが AI でどちらが人かを伏せた状態で評価する作りです。

数字でみる差

論文と HMS プレスリリースが一致して伝えている結果は次のとおり。

初期トリアージ時点(患者情報が最も少なく、判断の緊急度が最も高い段階)で、o1 は 67% の確率で正解または近い診断 を提示。これに対し医師 A は 55%、医師 B は 50%。「o1 は各診断ポイントで 2 名の医師と 4o を上回るか同等だった」と論文は述べています。研究の中心著者である Arjun Manrai 氏は HMS の発表で「ほぼすべてのベンチマークで AI が過去モデルと医師ベースラインを上回った」とコメント。

数字だけ見るとセンセーショナルなのですが、研究側はかなり慎重な書き方をしています。

強調されている「限界」の方も読みたい

ここからが今回の本題。論文と HMS は、結果と同じ強さで限界を示しています。

第一に、実際の生死判断ができる段階ではない こと。論文は、現実の患者ケアで評価するための前向き臨床試験が必要だという言い方で締めくくっています。

第二に、画像など非テキスト情報には弱い こと。今回 AI に与えたのはテキスト化されたカルテ情報だけ。CT・X 線などの画像読影や、患者の表情・所作といった非言語情報は対象外です。論文も「現行の基盤モデルは非テキスト入力上の推論で限界がある」と明記しています。

第三に、AI 診断の責任の所在が制度として未整備。TechCrunch が紹介した Rodman 氏のコメントでも、AI 診断のアカウンタビリティの公式枠組みはまだ整っていない、という認識が示されています。

批判もはっきり出ている

TechCrunch の記事中では、ER 医の Kristen Panthagani 氏が個人ブログでこの研究に対する違和感を述べています。要点は 「AI と比較された医師は ER 専門医ではなく内科の attending」 だった、という点。

Panthagani 氏は「AI を医師の臨床能力と比較するなら、その専門領域で実際に診療している医師と比べるべき」と指摘。「皮膚科医と LLM が脳神経外科の試験で勝負しても、あまり意味のあることは分からない」という比喩で批判しています。さらに「ER 医として初めて患者を見る私の最優先は最終診断を当てることではなく、目の前の患者が死にうる状態かを判断すること」とも書いています。

だから何が変わるか

ハーバードと Beth Israel という米国でも屈指の医療研究機関が、Science 誌で「LLM が複雑な医療ケースで臨床テストに値する水準に達した」と公式に書いた、という事実は重い。日本でも医療 AI の臨床試験を設計する側、保険診療で AI 補助を組み込もうとする病院、AI ベンダーで医療領域を狙うチームにとっては、一次情報として読んでおく価値のある研究です。とはいえ、ER 医の批判が示すように、誰と誰を比べるかで結論の意味は大きく変わる。AI による診断補助が「現場で本当に何の代替になるのか」は、まだ始まったばかりの議論ですね。

Science 誌掲載論文(doi.org/10.1126/science.adz4433、英語)

Harvard Medical School プレスリリース(英語)

TechCrunch — In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors(英語)

みんなの反応

救急ナース
(看護師・総合病院救急病棟・30 代女性)

ER の現場感覚で言うと、Panthagani 先生の批判はかなり的確。最初の数分で「死ぬかどうか」を見立てるのが救急で、最終診断は後からつくことの方が多い。研究の数字自体はすごいけど、現場置き換えの話には飛躍がある、というのは本当にそのとおり。
ろんぶん先生
(AI 研究者・30 代男性 / 仮名)

Science 誌に通った時点でメソドロジーは堅い。比較対象が内科 attending だった件はディスカッション節に明記されてる前提のはずなので、批判記事の論点は研究自体ではなくメディア見出しの方に向くべき。AI vs 医師の構図で煽る報道が、研究者の意図とずれて拡散していく好例。
D
DXおじさん
(大企業 DX 推進室長・50 代男性 / 仮名)

日本の病院に AI 診断補助を入れる話を経営側で議論するときに、必ず出てくる「責任の所在」問題。Adam Rodman 氏の「アカウンタビリティの枠組みが現状ない」発言は、米国側ですらそうだ、という意味で重い。日本での薬機法・医療機器プログラム規制の議論に直結する。
安全第一マン
(AI セーフティ研究者・40 代男性 / 仮名)

テキスト情報のみでの評価、というのは医療 AI 研究の現実的な制約だが、実臨床では画像・身体所見・コミュニケーションが大半を占める。LLM 単体の性能評価としての意義はあるものの、マルチモーダル統合が前提の医療現場での話とは別レイヤーで考えたほうが安全。
人権弁護士れん
(人権弁護士・40 代女性)

「患者は生死に関わる判断で人に導いてもらいたい」という Rodman 氏の発言、医療人類学的にもかなり堅い指摘。診断の正確性が上がっても、人に話を聞いてほしい・人に寄り添ってほしいというニーズは別物として残る。AI 補助診断と人による診療は、置き換え議論ではなく分業設計の話に進めるのが現実的。
X はてブ LINE Feedly