
ChatGPT に何かを相談したとき、ふと「この答え、本当に正直に言ってくれてるのかな」と思うこと、ありませんか。わたしも、子ども食堂の献立を相談したときに、当たり障りのない返事をされて、ちょっと寂しくなったことがあります。その「AIの正直さ」を、どうやって育てるか、という研究を OpenAI の Alignment チームが6月18日に公開していました。
タイトルは「Reinforcement learning towards broadly and persistently beneficial models」。日本語にすると「広く、そして持続的に有益なモデルへ向けた強化学習」といったところでしょうか。健康・教育・科学・コーディングといった、わたしたちが実際に AI を使う場面を想定して、「有益な特性」をモデルに少しずつ教えていった、という内容です。
ここで言う「有益な特性」というのは、正直であること、自分の間違いを指摘されたら素直に受け入れること、考えた筋道を隠さず見せること——そういう、人でいえば「いい態度」にあたるものです。研究チームは、こうした態度を強化学習(AIに「この振る舞いはいい」と報酬を与えて学ばせる方法)の訓練に、ほんの少量だけ混ぜ込みました。
面白いのは、その教え方の発想のところです。たくさんの場面を一つずつ「これはこう答えなさい」と仕込むのではなく、「いい態度の芯」を少しだけ植えておく。すると、教えていない場面に出くわしたときも、その芯から素直さがにじみ出てくる。子どもに「人には正直にね」と家で教えておくと、学校でも、知らない人の前でも、自然と正直にふるまえるようになる——あの感覚に近いのかな、と読んでいて思いました。
この研究でいちばん「なんですね」と声が出たのが、汎化(はんか、応用が効くこと)の部分です。チームは試しに、健康ドメインだけに絞って「有益な特性」を訓練しました。それなのに、訓練していない他の分野でも、モデルの整合性(言っていることとふるまいの一貫性)が改善した、というのです。
数字でいうと、訓練の外側も含めた53の評価のうち、44で整合性が改善したとのこと。より正直に、訂正に開かれ、透明になった、と報告されています。報酬ハッキング(評価のすき間を突いてズルをすること)や、相手をだますような受け答え、有害な助言、メンタルヘルスや安全にかかわる対応——こうした独立した評価でも、改善が見られたそうです。一つのドメインで芽生えた素直さが、ほかの場所にも染み出していく。これは、地味だけれど大きな発見だと思います。
もう一つ、わたしが現場の感覚で「これは助かるやつだ」と思ったのが、持続性(persistent)の話です。AI を困らせようとわざと意地悪な指示を与えたり、あとから有害な追加学習をさせたりしても、今回のモデルは正直さや安全さを、ある程度しぶとく保ち続けたと報告されています。
これは、看護師さんや自治体の窓口の方が AI を使う場面を思うと、けっこう大事なところです。利用者から想定外の聞き方をされても、プレッシャーのかかる状況に置かれても、AI が崩れずに「正直で、安全な側」にとどまってくれるか。日本の医療・介護・教育の現場では、AI が間違った断定をして人を傷つけないか、という不安が今も根強くあります。未知の状況でも芯がぶれにくい、という性質は、その不安をやわらげる方向に効いてくれそうです。
ただ、ここは正直に書いておきたいところです。53のうち44が改善した、というのは、裏を返せば残りは横ばいか、改善が見られなかった、ということでもあります。そして今回示されたのは、あくまで評価の上での改善です。実際にわたしたちが日々ChatGPTを使う場面で、いつでも完璧に正直でいてくれる、と保証されたわけではありません。
それでも、「いい態度は、教えた範囲を超えて伝染しうる」と実験で確かめられたことには、希望があります。これまで AI の安全性というと、危ない出力を一つずつ塞いでいく、もぐら叩きのような印象がありました。そうではなく、芯になる素直さを育てれば、見ていない場面でもふるまいが整っていく——そういう育て方の道筋が見えてきた、ということです。
わたしたちが ChatGPT や Claude、Gemini に何かを打ち明けるとき、その向こう側で、AI が「正直でいよう」とする芯を持っていてくれる。すぐに何かが変わるわけではないけれど、AI を怖がっている親世代に「少しずつ、こういう研究で素直さが育てられているんですよ」と伝えられる日が、近づいている気がします。次のステップが楽しみですね。
情報元: Reinforcement learning towards broadly and persistently beneficial models(OpenAI Alignment)
※この記事の本文は生成AIが執筆しています。事実関係は公式一次情報で確認しています。