- シンクタンクならニッセイ基礎研究所 >
- 保険 >
- 保険計理 >
- 外れ値の判定-距離の基準はいつも同じか?
外れ値の判定-距離の基準はいつも同じか?

保険研究部 主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員 篠原 拓也
文字サイズ
- 小
- 中
- 大
統計を行う際には、母集団から取り出したデータが様々な分布を見せる。それらのデータの分布図を描いたり、平均値や標準偏差の値を計算したりして、母集団の特徴を把握しようと試みる。そこで、問題になるのが、外れ値である。これは他のデータと比較して、突出して大きい、もしくは小さい値を示すデータである。例えば、あるデータが他のデータに比べて特に大きい場合、これを外れ値として、他のデータから除外すべきかどうか検討する。しかし、この検討は容易ではない。
統計の担当者が、「このデータは、どう見ても他のデータとは値がかけ離れているから、外れ値とみなす」などと、主観的に判断する訳にはいかない。そこで、客観的に、外れ値を判断するための方法がいろいろと考えられている。
まず、平均と標準偏差を用いる方法がある。問題のデータを除外して、残りのデータから平均と標準偏差の値を計算してみる。問題のデータが平均から標準偏差の値の3倍以上離れていたら、外れ値と判断する、という方法である。しかし、この方法では、全体のデータの数が少ない場合には、平均の値が安定せず、外れ値の判断に支障が出てしまう。
別の方法として、データの四分位点を用いる方法がある。データを大きい方から順番に並べたときに、全体の四分の一と、四分の三にあたるデータが定まる。この2つのデータを上側四分位点、下側四分位点と呼ぶ。この2つの四分位点の差の1.5倍を上側四分位点に足して、それよりも大きなデータは外れ値と判断する。同様に、差の1.5倍を下側四分位点から引いて、それよりも小さなデータを外れ値と判断する。しかし、この方法では、データが中央に密集している場合には、2つの四分位点の差が小さくなり、外れ値が多発してしまう。
このように、外れ値の判断を機械的に行うことは難しい。データの分布図を描いてみて、そのデータが群団全体からどのように外れているかを見ることが、判断のための王道となる。
ここまでは、データが1つの値からなる場合の話であった。次に、データが2つの値からなる場合を考えてみよう。例として、身長と体重の平均が同じである2つの成人の集団について、横軸に身長、縦軸に体重をとって、データの分布図を描いてみる。
図のデータAは、両方の集団に含まれている同一人物で、身長は平均よりもだいぶ高いが、体重は平均と同じである。このとき、それぞれの集団で、データAは、外れ値と判断すべきだろうか。このような場合、データの平均の位置(図の十字線の交点)から見て、このデータが、他のデータに比べて、どのくらい離れた場所に位置するのかを考えなくてはならない。
そのために、平均からの距離を定義して、その距離が一定以上ある場合に外れ値と判定する。図では、点線の傾いた楕円が、平均から等距離にある位置を表している。この点線の外側にあるデータを、外れ値と判定することになる。こうすると、楕円の大きさをどのように設定するか、が残された問題となる。図では、データ全体の95%が点線の楕円内に入るように楕円の大きさを設定した。この結果、データAは、データが大きくばらついている集団では外れ値ではないが、データがあまりばらついていない集団では外れ値と判断された。
このような距離は、通常の概念と異なり、データの分布具合に応じて変化する。この距離は、最初に提唱したインドの統計学者の名前をとって、「マハラノビス距離」と呼ばれている。通常は絶対的な基準である距離という概念が、統計上では、相対的な尺度になる。
外れ値の判断には、集団の中での相対的な位置関係が重要となる。そのために、統計では、距離という概念まで、相対的なものに定義し直してしまう。このことは、無機質で硬直的なイメージのある統計の裏に潜む、柔軟性を表しているように感じられるが、いかがだろうか。
(2015年02月16日「研究員の眼」)

保険研究部 主席研究員 兼 気候変動リサーチセンター チーフ気候変動アナリスト 兼 ヘルスケアリサーチセンター 主席研究員
篠原 拓也 (しのはら たくや)
研究・専門分野
保険商品・計理、共済計理人・コンサルティング業務
03-3512-1823
- 【職歴】
1992年 日本生命保険相互会社入社
2014年 ニッセイ基礎研究所へ
【加入団体等】
・日本アクチュアリー会 正会員
篠原 拓也のレポート
日付 | タイトル | 執筆者 | 媒体 |
---|---|---|---|
2025/03/25 | 産業クラスターを通じた脱炭素化-クラスターは温室効果ガス排出削減の潜在力を有している | 篠原 拓也 | 基礎研レター |
2025/03/18 | 気候変動:アクチュアリースキルの活用-「プラネタリー・ソルベンシー」の枠組みに根差したリスク管理とは? | 篠原 拓也 | 基礎研レター |
2025/03/11 | 国民負担率 24年度45.8%の見込み-高齢化を背景に、欧州諸国との差は徐々に縮小 | 篠原 拓也 | 研究員の眼 |
2025/03/04 | サイバーリスクのモデリング-相互に接続されたシステミックリスクをどうモデリングする? | 篠原 拓也 | 保険・年金フォーカス |
新着記事
-
2025年03月25日
ますます拡大する日本の死亡保障不足-「2024(令和6)年度 生命保険に関する全国実態調査<速報版>」より- -
2025年03月25日
米国で広がる“出社義務化”の動きと日本企業の針路~人的資本経営の視点から~ -
2025年03月25日
産業クラスターを通じた脱炭素化-クラスターは温室効果ガス排出削減の潜在力を有している -
2025年03月25日
「大阪オフィス市場」の現況と見通し(2025年) -
2025年03月25日
ヘルスケアサービスのエビデンスに基づく「指針」公表
レポート紹介
-
研究領域
-
経済
-
金融・為替
-
資産運用・資産形成
-
年金
-
社会保障制度
-
保険
-
不動産
-
経営・ビジネス
-
暮らし
-
ジェロントロジー(高齢社会総合研究)
-
医療・介護・健康・ヘルスケア
-
政策提言
-
-
注目テーマ・キーワード
-
統計・指標・重要イベント
-
媒体
- アクセスランキング
お知らせ
-
2024年11月27日
News Release
-
2024年07月01日
News Release
-
2024年04月02日
News Release
【外れ値の判定-距離の基準はいつも同じか?】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。
外れ値の判定-距離の基準はいつも同じか?のレポート Topへ