AIに“礼儀”を教えた仕組み|人間のフィードバックで整えるRLHF
賢いだけの AI は、平気で失礼なことや危険なことも言ってしまいます。ChatGPT が「ちゃんと役に立つ」のは、人間の評価で行儀を教える RLHF のおかげ。2022 年の InstructGPT を、やさしく解説します。
大量の文章で学んだ AI は、物知りです。でも「物知り」と「役に立つ」は、別物でした。質問に正面から答えず話をそらしたり、もっともらしい嘘をついたり、ときには有害なことを平気で口にしたり——初期の大規模言語モデルは、賢くても“使いづらい”面がありました。
この「賢さ」を「ちゃんと人の役に立つ振る舞い」へ橋渡ししたのが、2022 年の InstructGPT と、その中心技術 RLHF(人間のフィードバックによる強化学習) です。今の ChatGPT が自然に応答できる土台になりました。
何をした研究なのか
RLHF は、AI に人間の好みを教え込むための、3 段階の仕組みです。
- お手本を見せる:人間が「良い答え方」のお手本を書き、AI にまねさせる
- 好みを採点する:AI に複数の答えを出させ、人間が「こっちの答えのほうが良い」と順位づけする。その判断のクセを学んだ“採点役 AI(報酬モデル)”を作る
- 採点で鍛える:本体の AI に答えを作らせ、採点役が高得点をつける方向へ少しずつ調整していく
ポイントは、「正解の文章」を丸暗記させるのではなく、「どちらが好ましいか」という人間の感覚を学ばせたこと。礼儀や親切さは一通りに書き下せませんが、「こっちのほうが good」の積み重ねなら教えられる、というわけです。
いちばんすごいのはここ
結果が痛快でした。RLHF で整えた 13 億パラメータの InstructGPT の答えのほうが、100 倍以上も大きい 1750 億パラメータの GPT-3 より、人間に好まれたのです。
これは、「ただ大きくする」より「人の意図に沿わせる」ほうが、体感の役立ち度を大きく上げることを示しました。しかも整えた後の AI は、より正直になり、有害な発言も減りました。賢さの“量”だけでなく、振る舞いの“質”が決定的に効くと分かったのです。
ひとつ注意
RLHF は万能ではありません。教えるのは、あくまで評価する人間たちの好みです。だから、その人たちの偏りや価値観が、そのまま AI に映り込みます。また、採点役 AI のスキを突いて“高得点に見えるだけ”の答えを覚えてしまうこともあります。「人に好かれる」ことと「本当に正しい」ことは、必ずしも一致しない——ここは慎重に扱うべき点です。
持ち帰り
AI を役立つ相棒にする鍵は、能力そのものだけでなく、人の意図とどれだけ噛み合っているかにあります。RLHF は「人間のフィードバックで AI を整える」という発想を確立し、対話 AI が一気に実用へ近づくきっかけになりました。AI を導入するときも、“賢さ”と同じくらい“目的との一致”が大事だと教えてくれます。
AI 活用や、業務に沿った調整のご相談は、お問い合わせからどうぞ。