- シンクタンクならニッセイ基礎研究所 >
- 保険 >
- 保険計理 >
- 「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされている
「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされている
保険研究部 主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員 篠原 拓也
残りの30回については、「線状降水帯が発生すると予報したが、実際は発生しなかった」誤りが13回。「線状降水帯の発生を予報しなかったが、実際は発生した」誤りが17回だった。この結果、適合率は10/23=43.5%、再現率は10/27=37.0% となっている。
ここで、迷惑メールの判断や感染症の診断とは異なる点が出てくる。線状降水帯の発生予報で悩ましいのは、偽陽性も偽陰性も減らしたい、つまり適合率も再現率も高めたいと考えられる点だ。
偽陽性の場合、被災の可能性のある地域の住民が、予報に従って避難したのに、線状降水帯は発生しないことになる。被災しないという点はよいが、お年寄りや小児などの避難者が、さまざまな肉体的・精神的な負担を被ってしまう点は軽視できない。
一方、偽陰性の場合、予報が出ていないために避難していないなかで、線状降水帯が発生して洪水などの災害が起こり多くの人が被災する恐れがある。
このため、「空振り」の偽陽性と、「見逃し」の偽陰性のどちらも減らしていくことが求められる。
◇ 適合率と再現率を組み合わせた指標「Fスコア」を用いて評価することが考えられる
(※)「Fスコア」という名称は、1992年にコンピュータやコンピュータ科学に関する第4回メッセージ理解会議(MUC-4)で紹介されたときに、コンピュータ科学の学者Van Rijsbergen氏の著書に記載されていた別のF関数にちなんで名付けられたとされる。
先ほどの線状降水帯予報の例では、適合率は43.5%(=10/23)、再現率は37.0%(=10/27)だったので、F1スコアは、逆数の平均の逆数をとって、F1=1/((23/10+27/10)/2)=10/25=40%となる。
F1スコアは、適合率と再現率がともに100%のとき、最大値100%をとる。適合率と再現率のいずれかが0のとき、最小値0となる。
F1スコアが大きいということは、適合率と再現率がともに大きいことを意味する。このため、F1スコアは、適合率も再現率も高めたいというニーズに合致した尺度となる。
◇ 適合率と再現率のバランスには人間の感覚が必要とされる
先ほどの線状降水帯の予報の例でいえば、避難者の肉体的・精神的な負担となる偽陽性の問題もさることながら、避難せずに被災してしまう偽陰性の問題のほうが重大だと考えられる。つまり、偽陽性を問題とする適合率よりも、偽陰性を問題とする再現率を重視したい、ということになる。
このように、適合率と再現率のバランスを調整する尺度として、Fβスコアがある。算式で表すと、次のようになる。
Fβスコア = {(1+β2)×(適合率)×(再現率)}/{(β2×(適合率)+(再現率))}
ここで、βは実数とされ、β2は0以上の値となる。β2が1のときは、Fβスコアは、F1スコアと同じになる。β2が1より小さい場合、Fβスコアは再現率の変化よりも適合率の変化に敏感に反応する。つまり、適合率を重視していることになる。β2が0のときは、Fβスコアは、適合率に一致する。
一方、β2が1より大きい場合、Fβスコアは適合率の変化よりも再現率の変化に敏感に反応する。つまり、再現率を重視していることになる。β2が無限大のときは、Fβスコアは、再現率に一致する。
このようにFβスコアを使えば、適合率と再現率の重要性をβの設定として盛り込むことができる。すなわち、評価者の感覚に応じて、適合率と再現率のバランスを調整できるわけだ。
通常、AIの機械学習において、βはデータサイエンティストが設定する。両者のバランスをどうとるかは、人間であるデータサイエンティストに委ねられることになる。
複雑なAIの機械学習において、問題の重要性に関する人間の感覚が生かされることとなる。
いま世の中はAIブームの真っ盛りといえるが、まだしばらくは、人間の感覚が必要とされるのかもしれない。そんなことを考えながら、AI開発に関するさまざまなニュースを見てみるのもよいだろう。
(参考文献)
「なっとく! 機械学習」Luis G. Serrano著, 株式会社クイープ監訳(翔泳社, 2022年)
“The truth of the F-measure”Yutaka Sasaki(Teach tutor mater. Vol. 1, no. 5. pp. 1–5., 2008)
“F-score”(Wikipedia)
(2024年08月13日「研究員の眼」)
保険研究部 主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員
篠原 拓也 (しのはら たくや)
研究・専門分野
保険商品・計理、共済計理人・コンサルティング業務
03-3512-1823
- 【職歴】
1992年 日本生命保険相互会社入社
2014年 ニッセイ基礎研究所へ
【加入団体等】
・日本アクチュアリー会 正会員
篠原 拓也のレポート
日付 | タイトル | 執筆者 | 媒体 |
---|---|---|---|
2024/10/01 | 生成AIと保険-保険事業やアクチュアリー業務に、生成AIをどう活用できるか? | 篠原 拓也 | 保険・年金フォーカス |
2024/09/24 | 気候変動問題のコスト意識-日本の人々の意識の特徴はどこにあるか? | 篠原 拓也 | 基礎研レター |
2024/09/17 | ハロウィンジャンボの楽しみ2024-一攫千金のドキドキ感と100万円以上当せんのワクワク感の配分は? | 篠原 拓也 | 研究員の眼 |
2024/09/10 | モンティ・ホール問題とベイズ推定-追加情報に応じて取るべき行動をどう変えるか? | 篠原 拓也 | 研究員の眼 |
公式SNSアカウント
新着レポートを随時お届け!日々の情報収集にぜひご活用ください。
新着記事
-
2024年10月03日
暑さ指数(WBGT)と熱中症による搬送者数の関係 -
2024年10月03日
公的年金の制度見直しは一日にしてならず -
2024年10月03日
市場参加者の国債保有余力に関する論点 -
2024年10月03日
先行き不透明感が晴れない中国経済 -
2024年10月03日
市場構造の見直しと企業価値向上施策による株式市場の活性化
レポート紹介
-
研究領域
-
経済
-
金融・為替
-
資産運用・資産形成
-
年金
-
社会保障制度
-
保険
-
不動産
-
経営・ビジネス
-
暮らし
-
ジェロントロジー(高齢社会総合研究)
-
医療・介護・健康・ヘルスケア
-
政策提言
-
-
注目テーマ・キーワード
-
統計・指標・重要イベント
-
媒体
- アクセスランキング
お知らせ
-
2024年07月01日
News Release
-
2024年04月02日
News Release
-
2024年02月19日
News Release
【「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされている】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。
「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされているのレポート Topへ