AIモデルの評価指標を選ぶときの考え方|精度・再現率・適合率の使い分け
AI モデルの良し悪しを判断するための「評価指標」。Accuracy、Precision、Recall、F1、AUC など、用途ごとに見るべき指標が変わります。実務でよく使う指標の意味と、業務シーンに応じた選び方を、混同しやすいポイントとともに整理しました。
「AI モデルの精度は 95% です」——AI プロジェクトで頻繁に聞く言い回しですが、何の精度なのか、誤検知と見逃しのバランスがどうなのか、すぐには判断できません。
評価指標は、AI モデルがビジネス目的に合っているかを判断する物差しです。指標の選び方を間違えると、「数字は良いが、現場では使えない AI」が出来上がります。
本記事では、実務でよく使う評価指標の意味と、業務シーンに応じた選び方を整理します。
「分類タスク」と「回帰タスク」を区別する
評価指標を考える前に、AI モデルが解いているタスクの種類を確認します。
分類(Classification)タスク: 入力に対して、いくつかのクラス(カテゴリ)のどれかに割り振る。「不良品 / 良品」「クマあり / なし」「陽性 / 陰性」など。
回帰(Regression)タスク: 入力に対して、数値を予測する。「明日の売上」「機械の残存寿命」「タンパク質濃度」など。
評価指標は、タスクの種類で大きく変わります。本記事では主に分類タスクを扱います。
分類タスクの基本:混同行列を読む
分類タスクの評価は、すべて**混同行列(Confusion Matrix)**から始まります。
2 クラス分類の混同行列:
| 予測:陽性 | 予測:陰性 | |
|---|---|---|
| 実際:陽性 | TP(真陽性) | FN(偽陰性) |
| 実際:陰性 | FP(偽陽性) | TN(真陰性) |
- TP(True Positive):正しく陽性と判定
- TN(True Negative):正しく陰性と判定
- FP(False Positive):陰性なのに陽性と誤判定(誤検知)
- FN(False Negative):陽性なのに陰性と誤判定(見逃し)
ほとんどの評価指標は、この 4 つの数字から計算されます。
主要な評価指標
1. Accuracy(正解率)
(TP + TN) / 全体
すべての判定のうち、正解した割合。直感的で分かりやすい一方、データの偏り(クラス不均衡)に弱い指標です。
例:1,000 件中、陽性が 10 件、陰性が 990 件のデータで、すべて陰性と予測するモデルは Accuracy 99% になってしまいます。
2. Precision(適合率)
TP / (TP + FP)
陽性と予測したもののうち、実際に陽性だった割合。「アラートを上げたとき、本当に必要なアラートだった割合」。
Precision が高い = 誤検知(False Positive)が少ない。
3. Recall(再現率/Sensitivity/感度)
TP / (TP + FN)
実際に陽性のもののうち、正しく陽性と検出できた割合。「見つけるべきものを、ちゃんと見つけられた割合」。
Recall が高い = 見逃し(False Negative)が少ない。
4. F1 スコア
2 × (Precision × Recall) / (Precision + Recall)
Precision と Recall の調和平均。バランスを取った指標。どちらも重視したいが、用途上明確に重み付けがない場合に使われます。
5. Specificity(特異度)
TN / (TN + FP)
実際に陰性のもののうち、正しく陰性と判定できた割合。医療検査などで Sensitivity(感度)とペアでよく使われます。
6. AUC-ROC
ROC 曲線の下の面積(0〜1)。閾値を変えたときの、Recall(True Positive Rate)と FP Rate のトレードオフを総合的に評価。確率出力の分類モデルで頻繁に使われます。
「精度」を使うときに気をつけたいこと
「精度 95%」と聞いたとき、確認すべきポイントがいくつかあります。
1. クラス不均衡の有無
全体の 95% が「正常」で 5% が「異常」のデータでは、すべて「正常」と予測しても Accuracy 95% になります。異常検知系では Accuracy だけで判断してはいけません。
2. 誤検知と見逃しのコストの違い
- 見逃しが致命的な用途:医療画像診断(病気の見逃しは命に関わる)、製造の安全検査、不正取引検知
- 誤検知が致命的な用途:迷惑メールフィルタ(重要メールの誤分類は問題)、スパム検出、自動審査の合否判定
用途によって、Precision と Recall のどちらを優先するかが変わります。
3. 評価データの選び方
訓練に使ったデータで評価したら高い精度が出るのは当然です。本番想定のデータで評価したか、確認します。
業務シーンごとの指標選び
実務でよく出会うシーンと、見るべき指標の対応を整理します。
1. 外観検査・不良品検出 誤検知(良品を不良と判定)と見逃し(不良を良品と判定)のコストは事業によって異なります。
- 高級品の場合:見逃しは大きな損害、Recall 重視
- 大量生産の場合:誤検知の多発はライン停止、Precision とのバランス
2. 医療画像診断支援 Sensitivity(Recall)を最重視。見逃しが命に関わるため。Specificity(誤検知率)も併せて報告。
3. クマ出没予測 誤警報の多発は信頼を失う、見逃しは住民被害。Precision と Recall のバランスを、地域・季節ごとに調整。
4. 動作解析・スポーツ評価 分類より「動作のキーポイント座標」の誤差で評価。MPJPE(Mean Per Joint Position Error)など、座標精度の指標を使います。
5. レコメンド・検索 Top-K Precision / Recall。「上位 10 件のうち何件が正解か」のような実用的な指標を使います。
6. 異常検知 正例(異常)が極端に少ないので、Accuracy は使えません。Precision・Recall・F1、または Precision-Recall 曲線で評価。
7. 回帰タスク(数値予測) MSE(平均二乗誤差)、MAE(平均絶対誤差)、RMSE、MAPE(平均絶対パーセント誤差)など。用途で使い分け。
8. LLM・生成 AI 評価が特に難しい領域。BLEU、ROUGE、人間評価、LLM-as-a-judge、タスク達成率などを組み合わせます。
評価指標の落とし穴
実装現場で頻繁に見る落とし穴を 4 つ紹介します。
1. 評価データのリーク 訓練データと評価データが重複していると、本番では再現しない高精度が出ます。時系列データの場合、未来のデータが訓練に混入していないかを必ず確認します。
2. ベースラインとの比較欠如 「精度 80%」だけ見ても、それが良いのか悪いのか分かりません。「常に多数派を予測する」「人間が行ったとき」といったベースラインとの比較が重要です。
3. 単一指標への過度な依存 F1 スコア 1 つだけ最適化すると、運用上重要な観点を見落としがちです。複数の指標と、サンプル単位のエラー分析を併用します。
4. ビジネス指標との乖離 「モデル精度は良いが、ビジネス KPI は改善しない」というケースがあります。技術指標とビジネス指標を両方トラッキングする仕組みが必要です。
まとめ——「何のために測るか」から始める
評価指標は、AI モデルのビジネス目的との合致を測る道具です。「何を間違えると一番困るか」を最初に明確にすると、自然と見るべき指標が決まります。
技術指標と業務指標の両方を見ながらモデルを改善し続けることが、AI プロジェクトを成功に導く実務的なやり方です。
リサーチコーディネートでは、研究現場・産業現場での AI モデル設計・評価・運用を多く手がけてきました。「自社の AI モデルをどう評価すれば良いか」「精度は出ているのに使われない理由が分からない」というご相談からお気軽にお問い合わせください。