コラム
2024年08月13日

「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされている

保険研究部 主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員 篠原 拓也

文字サイズ

現在の人間社会では、情報をもとに、さまざまな判断がなされている。
 
例えば、誰しもが日々行っているであろうこととして、パソコンやスマートフォンに送られてくるメールのうち迷惑メールを仕分けて削除等の処理を判断する。気象情報では、気象庁の予報官が、台風などの低気圧の接近に伴って、線状降水帯による大雨の呼びかけを行うか判断する。医療の現場では、医師が、コロナウイルスやHIVのような感染症について、検査にもとづく診断を行う、といったことが挙げられる。
 
これらの判断は、基準を明確化すれば機械的に行うことが可能だ。つまり、AIによる判断が可能となる。ただし、人間が行うにせよ、AIが行うにせよ、判断が100%正しいとは限らない。
 
線状降水帯の発生予報で言えば、発生する予報を出したのに実際は発生しなかった「空振り」と、発生する予報を出さなかったのに実際は発生した「見逃し」の、2種類の誤りが起こり得る。
 
今回は、こうした判断の誤りについて、AIの機械学習を含めて考えてみたい。

◇ 迷惑メールの判断は慎重に行うべき

何か将来のことを予測したり、未知のことを判断したりすることと、それが実際はどうだったかということの間には、4つの場合が考えられる。
 
例として、迷惑メールの判断と処理について考えてみる。「迷惑メールだと判断して削除し、実際に迷惑メールだった」。「迷惑メールだと判断して削除したが、実際は迷惑メールではなかった」。「迷惑メールではないと判断して削除しなかったが、実際は迷惑メールだった」。「迷惑メールではないと判断して削除せず、実際に迷惑メールではなかった」の4つの場合があり得る。
 
これらのそれぞれの場合の発生数をまとめたものは、混同行列と呼ばれる。100個のメールについて、混同行列を作ると、次表のようなものとなる。
迷惑メールの判断の混同行列
この表の場合は、判断内容と実際の状況が一致していたメールが85個(=40個+45個)となっており、まずまずの判断結果だったといえるだろう。
 
残りの15個のメールについては、「迷惑メールだと判断して削除したが、実際は迷惑メールではなかった」誤りが7個。「迷惑メールではないと判断して削除しなかったが、実際は迷惑メールだった」誤りが8個あった。
 
どちらの誤りが問題だろうか。迷惑メールは確かに“迷惑”だが、それを放置したからといって直ちにパソコンやスマートフォンの使用に支障が出る訳ではない。つまり、後者のケースはそれほど深刻な問題ではないと言える。
 
一方、前者のケースでは、迷惑メールではないのに誤って削除してしまったことになる。もし、そのように削除したメールのなかに重要なものが含まれていたら、もしかすると取り返しのつかない事態に陥ってしまうかもしれない。つまり、前者のケースは重大な問題と考えられる。
 
上表の迷惑メールの判断の混同行列では、前者の7個の誤りを減らすために、迷惑メールの判断は慎重に行うべき、ということになるだろう。

◇ 感染症の診断は積極的に行うべき

次に、感染症の診断について見てみよう。先ほどと同様に100人の受検者について混同行列を作ってみたところ、次表のようになったとする。
感染症の診断の混同行列
この表の場合は、診断内容と実際の罹患の有無が一致していた受検者が85人(=20人+65人)だった。
 
残りの15人の受検者については、「感染症と診断されたが、実際は感染症に罹患していなかった」誤りが5人。「感染症ではないと診断したが、実際は感染症に罹患していた」誤りが10人だった。
 
統計学や疫学では、前者の5人は「偽陽性」、後者の10人は「偽陰性」と呼ばれる。ちなみに、「感染症と診断され、実際に感染症に罹患していた」20人は「真陽性」。「感染症ではないと診断され、実際に感染症に罹患していなかった」65人は「真陰性」と呼ばれる。
 
それでは、感染症の診断の場合は、「偽陽性」と「偽陰性」のどちらの誤りが問題だろうか。偽陽性の受検者は、実際は感染症に罹患していないにもかかわらず、自宅や医療施設などで隔離期間を過ごすことになる。当人にとっては、いい迷惑だろう。また、偽陽性の人が多数入院すれば、医療資源の逼迫につながり、他の病気の診療に影響が出るかもしれない。ただし、感染症の拡大という点では、偽陽性が増えてもそれほど問題は生じないと言える。
 
一方、偽陰性はどうか。偽陰性の受検者は、実際は感染しているにもかかわらず、自宅や医療施設などで隔離されることがない。もし、コロナウイルス感染症のように感染力が強い場合には、偽陰性の人が社会活動を続けることで感染が拡大してしまう恐れがある。つまり、偽陰性は感染症の拡大の点で問題が大きいと考えられる。
 
上表の感染症の診断の混同行列では、偽陰性の10人を減らすために、感染症の診断は積極的に行うべき、ということになるだろう。

◇ 偽陽性を重視するときは適合率、偽陰性を重視するときは再現率が用いられる

このように見ていくと、判断や診断の対象が変われば、偽陽性が問題となる場合や、偽陰性が問題となる場合がある、ということになる。
 
統計学では、偽陽性を問題にするときには、陽性と判断されたうち実際に陽性だった割合である「適合率」という割合を用いる。先ほどの迷惑メールの判断の例では、40/47=85.1% といった具合だ。
 
この適合率が高いほど、迷惑メールの判断はうまくいったということになる。
 
一方、偽陰性を問題にするときには、実際に陽性だったうち陽性と判断された割合である「再現率」という割合を用いる。先ほどの感染症の診断の例では、20/30=66.7% となる。
 
この再現率が高いほど、感染症の診断は(感染症拡大防止の点で)適切だったということになる。

(2024年08月13日「研究員の眼」)

Xでシェアする Facebookでシェアする

保険研究部   主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員

篠原 拓也 (しのはら たくや)

研究・専門分野
保険商品・計理、共済計理人・コンサルティング業務

経歴
  • 【職歴】
     1992年 日本生命保険相互会社入社
     2014年 ニッセイ基礎研究所へ

    【加入団体等】
     ・日本アクチュアリー会 正会員

公式SNSアカウント

新着レポートを随時お届け!
日々の情報収集にぜひご活用ください。

週間アクセスランキング

レポート紹介

【「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされている】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。

「空振り」と「見逃し」どちらが問題?-機械学習の評価尺度には人間の感覚が生かされているのレポート Topへ