画像の「何でも」切り抜くAI|Segment Anythingの汎用力
写真の中の「あれ」を、クリックひとつで正確に切り抜く——。2023 年の Segment Anything は、11 億個ものマスクで学び、見たことのない画像でも何でも切り出せる“切り抜きの基盤モデル”になりました。やさしく解説します。
写真の中の人物だけ、商品だけ、背景だけをきれいに切り抜く——。デザインや画像編集の現場では地味に手間のかかる作業ですが、これを クリックひとつでこなしてしまう AI が登場しました。2023 年に Meta が発表した Segment Anything Model(SAM) です。名前のとおり、「何でも(Anything)」切り出すことを目指しました。
そもそも「切り抜き」はなぜ難しい
画像の中で「どこからどこまでが一つの物か」を、ピクセル単位で正確に区切る作業を セグメンテーションと呼びます。これが意外と難物でした。
- 物の種類は無限にある(犬、椅子、雲、料理、見たこともない物体……)
- 従来の AI は「あらかじめ決めた種類」しか切り出せないことが多かった
- 新しい対象を切り出したいたびに、専用のデータを集めて訓練し直す必要があった
つまり「想定外のもの」に弱かったのです。
何をした研究なのか
SAM は、この壁を 2 つの力技で越えました。
ひとつは 「指さしで頼める」設計。「ここ」と点を打つ、四角で囲む、といった**簡単な合図(プロンプト)**を出すだけで、AI がその対象をきれいに切り出します。種類を言葉で指定する必要すらありません。
もうひとつは 桁外れの学習量。研究チームは、1100 万枚の画像から **11 億個もの“切り抜き(マスク)”**という、史上最大級のデータセットを作り上げ、それで SAM を鍛えました。
いちばんすごいのはここ
これだけ多種多様な切り抜きを浴びた結果、SAM は 学習時に一度も見たことのない画像でも、その場で何でも切り出せるようになりました(ゼロショット)。新しい対象が出てきても、いちいち訓練し直す必要がありません。
こうした「いろいろな場面に、追加学習なしでそのまま使える」汎用モデルは **基盤モデル(ファウンデーションモデル)**と呼ばれます。文章の世界では GPT がその代表ですが、SAM は 「切り抜き」という画像の基本作業で、その地位を築いたのです。医療画像の解析から衛星写真、日常の写真編集まで、幅広い応用が一気に広がりました。
ひとつ注意
SAM が得意なのは、あくまで **「対象を切り出す(領域を区切る)」**ことです。「それが何なのか(犬か猫か)」を言い当てることが主目的ではありません。実際の用途では、SAM で切り出したうえに、別の判別 AI を組み合わせる、といった使い方が一般的です。万能の一台ではなく、強力な部品として捉えるのが正確です。
持ち帰り
「決めた種類だけ」から「何でも、その場で」へ——。Segment Anything は、画像処理に基盤モデルの考え方を持ち込み、切り抜き作業の常識を更新しました。地味だけれど応用範囲の広い、実務でこそ効いてくる一本です。
画像解析や AI を使った業務効率化のご相談は、お問い合わせからどうぞ。