コラム
2024年08月13日

「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされている

保険研究部 主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員 篠原 拓也

文字サイズ

◇ 適合率と再現率を両方用いて評価することが一般的

それでは、他の判断の例ではどうか。気象予報の線状降水帯の発生予報を見てみよう。先ほどまでと同じく、100回の予報をもとに、混同行列を作る。
線状降水帯予報の混同行列
この表の場合は、線状降水帯の予報の有無と実際の発生の有無が一致していたケースが100回のうち70回(=10回+60回)あった。
 
残りの30回については、「線状降水帯が発生すると予報したが、実際は発生しなかった」誤りが13回。「線状降水帯の発生を予報しなかったが、実際は発生した」誤りが17回だった。この結果、適合率は10/23=43.5%、再現率は10/27=37.0% となっている。
 
ここで、迷惑メールの判断や感染症の診断とは異なる点が出てくる。線状降水帯の発生予報で悩ましいのは、偽陽性も偽陰性も減らしたい、つまり適合率も再現率も高めたいと考えられる点だ。
 
偽陽性の場合、被災の可能性のある地域の住民が、予報に従って避難したのに、線状降水帯は発生しないことになる。被災しないという点はよいが、お年寄りや小児などの避難者が、さまざまな肉体的・精神的な負担を被ってしまう点は軽視できない。
 
一方、偽陰性の場合、予報が出ていないために避難していないなかで、線状降水帯が発生して洪水などの災害が起こり多くの人が被災する恐れがある。
 
このため、「空振り」の偽陽性と、「見逃し」の偽陰性のどちらも減らしていくことが求められる。

◇ 適合率と再現率を組み合わせた指標「Fスコア」を用いて評価することが考えられる

AIの機械学習では、データを分類するモデルの評価尺度として、「Fスコア」(※)が用いられる場合がある。まず、「F1スコア」として、適合率と再現率の調和平均、つまり逆数の平均の逆数をとる尺度がシンプルなものとして挙げられる。
 
(※)「Fスコア」という名称は、1992年にコンピュータやコンピュータ科学に関する第4回メッセージ理解会議(MUC-4)で紹介されたときに、コンピュータ科学の学者Van Rijsbergen氏の著書に記載されていた別のF関数にちなんで名付けられたとされる。
 
先ほどの線状降水帯予報の例では、適合率は43.5%(=10/23)、再現率は37.0%(=10/27)だったので、F1スコアは、逆数の平均の逆数をとって、F1=1/((23/10+27/10)/2)=10/25=40%となる。
 
F1スコアは、適合率と再現率がともに100%のとき、最大値100%をとる。適合率と再現率のいずれかが0のとき、最小値0となる。
 
F1スコアが大きいということは、適合率と再現率がともに大きいことを意味する。このため、F1スコアは、適合率も再現率も高めたいというニーズに合致した尺度となる。

◇ 適合率と再現率のバランスには人間の感覚が必要とされる

F1スコアは、適合率と再現率を同程度に重視する尺度である。だが、場合によっては、適合率よりも再現率を重視したいといったこともありうる。
 
先ほどの線状降水帯の予報の例でいえば、避難者の肉体的・精神的な負担となる偽陽性の問題もさることながら、避難せずに被災してしまう偽陰性の問題のほうが重大だと考えられる。つまり、偽陽性を問題とする適合率よりも、偽陰性を問題とする再現率を重視したい、ということになる。
 
このように、適合率と再現率のバランスを調整する尺度として、Fβスコアがある。算式で表すと、次のようになる。
 
Fβスコア = {(1+β2)×(適合率)×(再現率)}/{(β2×(適合率)+(再現率))}
 
ここで、βは実数とされ、β2は0以上の値となる。β2が1のときは、Fβスコアは、F1スコアと同じになる。β2が1より小さい場合、Fβスコアは再現率の変化よりも適合率の変化に敏感に反応する。つまり、適合率を重視していることになる。β2が0のときは、Fβスコアは、適合率に一致する。
 
一方、β2が1より大きい場合、Fβスコアは適合率の変化よりも再現率の変化に敏感に反応する。つまり、再現率を重視していることになる。β2が無限大のときは、Fβスコアは、再現率に一致する。
 
このようにFβスコアを使えば、適合率と再現率の重要性をβの設定として盛り込むことができる。すなわち、評価者の感覚に応じて、適合率と再現率のバランスを調整できるわけだ。
 
通常、AIの機械学習において、βはデータサイエンティストが設定する。両者のバランスをどうとるかは、人間であるデータサイエンティストに委ねられることになる。
 
複雑なAIの機械学習において、問題の重要性に関する人間の感覚が生かされることとなる。
 
いま世の中はAIブームの真っ盛りといえるが、まだしばらくは、人間の感覚が必要とされるのかもしれない。そんなことを考えながら、AI開発に関するさまざまなニュースを見てみるのもよいだろう。

(参考文献)
 
「なっとく! 機械学習」Luis G. Serrano著, 株式会社クイープ監訳(翔泳社, 2022年)
 
“The truth of the F-measure”Yutaka Sasaki(Teach tutor mater. Vol. 1, no. 5. pp. 1–5., 2008)
 
“F-score”(Wikipedia)

(2024年08月13日「研究員の眼」)

Xでシェアする Facebookでシェアする

保険研究部   主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員

篠原 拓也 (しのはら たくや)

研究・専門分野
保険商品・計理、共済計理人・コンサルティング業務

経歴
  • 【職歴】
     1992年 日本生命保険相互会社入社
     2014年 ニッセイ基礎研究所へ

    【加入団体等】
     ・日本アクチュアリー会 正会員

公式SNSアカウント

新着レポートを随時お届け!
日々の情報収集にぜひご活用ください。

週間アクセスランキング

レポート紹介

【「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされている】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。

「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされているのレポート Topへ