2026年5月31日研究ダイジェスト

AIに“礼儀”を教えた仕組み｜人間のフィードバックで整えるRLHF

賢いだけの AI は、平気で失礼なことや危険なことも言ってしまいます。ChatGPT が「ちゃんと役に立つ」のは、人間の評価で行儀を教える RLHF のおかげ。2022 年の InstructGPT を、やさしく解説します。

大量の文章で学んだ AI は、物知りです。でも「物知り」と「役に立つ」は、別物でした。質問に正面から答えず話をそらしたり、もっともらしい嘘をついたり、ときには有害なことを平気で口にしたり——初期の大規模言語モデルは、賢くても“使いづらい”面がありました。

この「賢さ」を「ちゃんと人の役に立つ振る舞い」へ橋渡ししたのが、2022 年の InstructGPT と、その中心技術 RLHF（人間のフィードバックによる強化学習） です。今の ChatGPT が自然に応答できる土台になりました。

何をした研究なのか

RLHF は、AI に人間の好みを教え込むための、3 段階の仕組みです。

お手本を見せる：人間が「良い答え方」のお手本を書き、AI にまねさせる
好みを採点する：AI に複数の答えを出させ、人間が「こっちの答えのほうが良い」と順位づけする。その判断のクセを学んだ“採点役 AI（報酬モデル）”を作る
採点で鍛える：本体の AI に答えを作らせ、採点役が高得点をつける方向へ少しずつ調整していく

ポイントは、「正解の文章」を丸暗記させるのではなく、「どちらが好ましいか」という人間の感覚を学ばせたこと。礼儀や親切さは一通りに書き下せませんが、「こっちのほうが good」の積み重ねなら教えられる、というわけです。

いちばんすごいのはここ

結果が痛快でした。RLHF で整えた 13 億パラメータの InstructGPT の答えのほうが、100 倍以上も大きい 1750 億パラメータの GPT-3 より、人間に好まれたのです。

これは、「ただ大きくする」より「人の意図に沿わせる」ほうが、体感の役立ち度を大きく上げることを示しました。しかも整えた後の AI は、より正直になり、有害な発言も減りました。賢さの“量”だけでなく、振る舞いの“質”が決定的に効くと分かったのです。

ひとつ注意

RLHF は万能ではありません。教えるのは、あくまで評価する人間たちの好みです。だから、その人たちの偏りや価値観が、そのまま AI に映り込みます。また、採点役 AI のスキを突いて“高得点に見えるだけ”の答えを覚えてしまうこともあります。「人に好かれる」ことと「本当に正しい」ことは、必ずしも一致しない——ここは慎重に扱うべき点です。

持ち帰り

AI を役立つ相棒にする鍵は、能力そのものだけでなく、人の意図とどれだけ噛み合っているかにあります。RLHF は「人間のフィードバックで AI を整える」という発想を確立し、対話 AI が一気に実用へ近づくきっかけになりました。AI を導入するときも、“賢さ”と同じくらい“目的との一致”が大事だと教えてくれます。

AI 活用や、業務に沿った調整のご相談は、お問い合わせからどうぞ。

出典

Training language models to follow instructions with human feedback（Ouyang et al., 2022 / arXiv）