← 記 / Journal に戻る

「王様 − 男 + 女 = 女王」AIが言葉を計算しはじめた日

言葉を足し算・引き算する——そんな魔法みたいな計算を、AI が本当にやってのけました。2013 年の Word2Vec は、単語を「意味のベクトル」に変えることで、いまの ChatGPT までつながる土台を築いた研究です。やさしく解説します。

「王様 − 男 + 女 = 女王」AIが言葉を計算しはじめた日

「王様」から「男」を引いて、「女」を足す。答えは——「女王」。

人間なら言葉遊びとして笑える話です。でも、これを コンピュータが計算として解いてしまう としたら、どうでしょう。2013 年、Google の Tomas Mikolov らが発表した Word2Vec は、まさにこの“言葉の足し算引き算”を現実にしてみせました。

何をした研究なのか

コンピュータにとって、文字は単なる記号でしかありません。「犬」と「猫」が似ているとか、「東京」と「日本」が「パリ」と「フランス」の関係に似ている、といったことは、そのままでは理解できません。

Word2Vec のアイデアは、それぞれの単語を「数百個の数字の並び(ベクトル)」に変換することでした。

  • 大量の文章を読ませ、「ある単語の前後にどんな単語が来やすいか」をひたすら学習させる
  • すると、似た文脈で使われる単語どうしが、ベクトル空間の近い場所に配置される
  • 「意味」が、座標として表現される

しかも巧妙だったのは、ごく軽い仕組みで大量の文章を高速に処理できるよう設計されていたこと。だからこそ、ウェブ規模のテキストから一気に学習できました。

何がすごいのか

学習が終わったベクトルを調べると、驚くことが起きていました。単語の意味の“関係”が、ベクトルの向きとして現れていたのです。

  • 「王様」−「男」+「女」を計算すると、できたベクトルにいちばん近い単語は 「女王」
  • 「東京」−「日本」+「フランス」≒「パリ」
  • 「歩く」と「歩いた」の差は、「泳ぐ」と「泳いだ」の差とほぼ同じ向き

つまり「男女」「首都と国」「現在と過去」といった関係そのものが、空間内の“同じ移動”として表れたのです。誰かが教えたわけではありません。大量の文章を眺めただけで、AI が自分で見つけ出した規則性でした。

いちばん面白いのはここ

これは「言葉の意味を、座標という形で機械が扱えるようになった」瞬間でした。地図上の都市の位置関係のように、言葉どうしの“意味の距離”を測れるようになったのです。

この発想は、その後の自然言語処理の土台になりました。文章を理解する AI、翻訳、検索、そして今の **ChatGPT のような大規模言語モデルも、根っこでは「言葉をベクトルにする」**という Word2Vec が広めた考え方の上に立っています。たとえるなら、Word2Vec は 言葉に住所を与えた研究でした。

ひとつ注意

「王様 − 男 + 女 = 女王」はあまりに見事なので“魔法”のように語られがちですが、すべての例がここまできれいに決まるわけではありません。計算上のちょっとした工夫も効いていますし、学習に使った文章の偏り(たとえば職業と性別の結びつき)まで、そのまま吸い込んでしまう弱点も後に指摘されました。AI が学ぶ“言葉の意味”は、人間社会の鏡でもあるのです。

持ち帰り

意味という、いちばん人間くさくて曖昧なものを、AI が「計算できる形」に落とし込んだ——。Word2Vec は地味な仕組みに見えて、今の言語 AI 全盛時代の出発点になった一本です。技術の系譜をたどると、ぐっと面白くなります。

AI 活用や自然言語処理のご相談は、お問い合わせからどうぞ。


出典