絶対値をとるか、二乗するか－機械学習での評価方法は誰が決める?

保険研究部主席研究員兼気候変動リサーチセンターチーフ気候変動アナリスト兼ヘルスケアリサーチセンター主席研究員篠原拓也

最近、AIに関するニュースが各種メディアで連日のように報じられている。例を挙げると、

― 生成AIで「フィッシングサイト」識別　警察庁が2025年度までに導入へ (毎日新聞 2024.3.21)
― 公的機関のAI活用例、世界で共有　G7デジタル相会合 (朝日新聞デジタル 2024.3.16)
― 世界初のAI規制法、EU議会で可決制裁金最大56億円 (Forbes Japan 2024.3.14)
― 米新興企業のAI投資3.7兆円にロボや医療に裾野拡大 (日本経済新聞 2024.3.12)

といった感じだ。いま、世の中は「AI全盛時代」を迎えつつあるのかもしれない。

AIと言えば機械学習だ。AIは、まず、データをもとに機械学習をする。そして、与えられたデータを分類したり、与えられたデータをもとに予測をしたりする。通常、多くのデータで機械学習をしていけば、分類や予測の精度は高まっていく。2022年に登場した生成AIは、文章や画像などのコンテンツを作り出す。まさに、人工の“知能”と呼ぶのにふさわしい発展を続けている。

機械学習のうち予測に関するものは、以前から「回帰分析」として行われてきたものの、大幅な拡張と見ることができる。予測の機械学習では、どれくらい予測があたったか、の評価が重要となる。

今回は、予測の機械学習における評価について、考えてみることとしたい。

◇ 予測と正解の誤差 ― 絶対値をとるか、二乗するか

通常、予測の機械学習は、正解のあるデータを使う「教師あり学習」として行われる。モデルの予測値と正解の誤差を計算して、それが小さくなるようにモデルを改良していく。

ただし、誤差を単純な引き算として計算すると、一般に、複数の予測のうち、ある箇所のプラスの誤差と、別のある箇所のマイナスの誤差が相殺し合って誤差の合計が小さくなってしまう。

そこで、単純な引き算ではなく、引き算した結果のマイナスの値をプラスに変換するような計算が必要となる。そこで考えつくのが、(1) 誤差の絶対値をとる方法と、(2) 誤差を二乗する方法だ。

複数の予測で、誤差の絶対値をとって、その平均を計算したものは「平均絶対誤差 (Mean Absolute Error, MAE)」と呼ばれる。一方、誤差を二乗して、その平均の平方根を計算したものは「平均平方根二乗誤差 (Root Mean Squared Error, RMSE)」と呼ばれる。

RMSEとMAEはマイナスの値にはならず、どちらの評価指標も0に近いほど誤差が小さい、つまり予測の精度が高いことを意味する。数学的には、RMSE ≧ MAE (等号は複数の予測の誤差の絶対値がすべて等しい場合)となることが示される。

実は、MAEとRMSEの間では、どちらが優れた評価指標か、という議論が長らく繰り広げられてきた。

◇ RMSEは微分可能で使いやすい

まず、議論の大きな論点として、微分可能かどうかという点が挙げられる。機械学習においては、予測の評価に応じて予測値を見直し、再び評価してまた予測値を見直して…という作業を繰り返しながら予測の精度を高めていく。これは、「最適化アルゴリズム」と呼ばれる。

このとき、評価の算式(関数)が微分可能だと、予測値を見直したときに着実に正解に近付くことができる。つまり、最適化できる。

RMSEは二乗の算式なので微分ができる。一方、MAEは絶対値をとる算式なので、誤差が0となる箇所で微分ができない。(誤差がプラスの方からこの箇所に近付くと傾きがプラス、誤差がマイナスの方から近付くと傾きがマイナスとなり、傾きが不連続となる。)

そのため、機械学習の最適化アルゴリズムの観点からはRMSEが使いやすいということになる。

◇ MAEは外れ値に強い

一方、議論のもう1つの論点として、外れ値の影響をどのくらい受けるか、という点がある。複数の予測のうち、ある予測だけ正解から大きく外れた場合、予測の評価にどう影響するかという点だ。

RMSEは誤差を二乗するので、外れ値の影響が大きく出ることとなる。たった1ヵ所でも予測を大きく外すと、他の予測は大体当たっていたとしても、評価は下がってしまう。

一方、MAEは、二乗の計算がないため、外れ値があっても外れたなりの評価の低下にとどまる。

この様子を、具体例をもとに見ていくこととしよう。A氏～J氏の10人の成人の体重予測を考える。この予測では、MAEは1.7、RMSEは2.0となっている。

これに対して、G氏の体重を150kgと予測して正解から大きく外してしまった場合を考えてみる。この場合、MAEは7.5、RMSEは19.1となっている。両者ともG氏の予測を外したことの影響が数値の増大として表れているが、MAEに比べて、RMSEはより大きく増大していることがわかる。

MAEは、RMSEに比べると外れ値の影響を受けにくい評価指標と言えるだろう。

日付	タイトル	執筆者	媒体
2025/05/27	気候指数 2024年データへの更新－日本の気候の極端さは1971年以降の最高水準を大幅に更新	篠原拓也	基礎研レポート
2025/05/20	「次元の呪い」への対処－モデルの精度を上げるにはどうしたらよいか?	篠原拓也	研究員の眼
2025/05/13	チェス盤を用いた伝心－愛情と計算力があれば心は通じる?	篠原拓也	研究員の眼
2025/05/09	国民負担率 24年度45.8％の見込み－高齢化を背景に、欧州諸国との差は徐々に縮小	篠原拓也	基礎研マンスリー

日付

タイトル

執筆者

媒体

2025/05/27

気候指数 2024年データへの更新－日本の気候の極端さは1971年以降の最高水準を大幅に更新

篠原拓也

基礎研レポート

2025/05/20

「次元の呪い」への対処－モデルの精度を上げるにはどうしたらよいか?

篠原拓也

研究員の眼