コラム
2021年01月19日

統計分析を理解しよう:正規分布、標準化、標準正規分布の概念

生活研究部 主任研究員・ヘルスケアリサーチセンター・ジェロントロジー推進室兼任   金 明中

このレポートの関連カテゴリ

統計 経済予測・経済見通し などの記事に関心のあるあなたへ

btn-mag-b.png
基礎研 Report Head Lineではそんなあなたにおすすめのメルマガ配信中!
各種レポート配信をメールでお知らせするので読み逃しを防ぎます!

ご登録はこちら

twitter Facebook このエントリーをはてなブックマークに追加 Pocketで後で読む

文字サイズ

正規分布とは?

今回は正規分布について説明したい。正規分布(normal distribution)とは、連続確率分布の一種である。まず、確率とは、ある出来事(事象、event)が起こる割合のことである。例えば、サイコロを投げると、6種類の目の内どれか1つは必ず出てくるので、1から6までの目が出る割合はどれも同じである。従って、それぞれの目が出る確率は、すべて1/6である(式1))。
それぞれの目が出る確率
また、 分布とは「あちこち分かれて広がること」という意味で、確率分布とはあるできごとが起こる確率の一覧(確率の集合)であり、上述したサイコロの確率分布は、式2)のようになる。
サイコロの確率分布
さらに、確率分布は離散確率分布と連続確率分布に区分することができる。まず、離散確率分布とは、アンケートなどで男性=1、女性=2といったように数値そのものには意味がなく、四則演算ができないなどデータを区分するためのデータ(このようなデータを「質的データ」あるいは「離散データ」という)で、確率変数が連続しておらず、離散的である場合の確率分布である。 
 
一方、連続確率分布とは、あるクラスにおける学生の体重、身長など、数値そのものに意味があり、四則演算ができるデータ(このようなデータを「量的データ」あるいは「連続データ」という)で、確率変数が連続的な場合の確率分布である1。そして、連続確率分布をグラフで描いたものが確率密度関数である。確率密度関数は図表1のように多様な形があり得るものの、Cのように真ん中に山が来て左右対称の形をしているのが「正規分布」の一般的な形である。
図表1 正規分布の多様な形
一般的に正規分布は、次のような特徴がある。

(1) -∞~∞の実数値をとる。
(2) 山が一つで平均値(、以下、平均)付近の確率密度が最も大きく、平均と中央値、最頻値が一致する。
(3) 平均を中心として左右対称の釣鐘型の分布である。
(4) 平均から離れるほど、確率密度が小さくなる。
(5) 正規分布のカーブの下の面積は形にかかわらず、どれも”1”になっており、分布のカーブの下の面積は確率を示している。
 
つまり、
⇒ 平均から左右に標準偏差1つ分(平均()±標準偏差()×1)の区間にデータが入る確率は68.26%


⇒ 平均から左右に標準偏差2つ分(平均()±標準偏差()×2)の区間にデータが入る確率は95.44%


⇒ 平均から左右に標準偏差3つ分(平均()±標準偏差()×3)の区間にデータが入る確率は99.74%


である(図表2)。
図表2 正規分布の特徴
例えば東京都の中学校1年生男子が10万人いて、彼らの身長の平均が160cm、標準偏差が5.0cmだと仮定しよう。すると、平均から左右に標準偏差1つ分の区間、つまり、身長が155cmから 165cmの間に68,260人(10万人×0.6826)が含まれていることが推測できる。
 
→ 160cm-5.0cm≦ x ≦160cm+5.0cm
→ 155cm ≦ x ≦ 165cm
 
確率変数Xが、平均、分散の正規分布に従うとき(式(3))、その確率密度関数は式(4)のようになる。
確率密度関数
式(4)を見ると、かなり難しい式のように見えるものの、は3.14159…、eは2.71828…という値がすでに決まっているので、平均()と標準偏差()さえ分かれば正規分布の形が決まることになる。つまり、平均は確率密度関数のグラフの位置を決め、標準偏差はグラフの形を決定する。標準偏差が小さいと、平均付近にデータが集まり、標準偏差が大きいと、データが平均から大きく離れることになる。
 
1 変数(variables、変量とも言う)とは、調査対象により異なり、ある調査を行って得られた結果(データ)に名前を付けたものである。また、確率変数とは、標本空間にある全ての要素を実数に対応させたものだと言える。

標準化と標準正規分布

平均と標準偏差により決まる正規分布は世の中に数多く存在し、その形も確率変数により異なるため、世の中のすべての正規分布を分布表として用いることはできない。そこで、ある確率変数のデータが正規分布に従うと仮定できる場合、このデータを標準化した「標準正規分布表」を用いて一定区間の確率(面積)を求める方法が利用されている。
 
標準化とは、世の中の無数の確率変数が同じ平均と標準偏差を持つように確率変数を変換することである。確率変数を標準化するには、該当する値()から平均()を引き、標準偏差()で割ればよい。すると、確率変数は標準化確率変数に変わり、確率変数の単位に関係なく平均0、標準偏差1の値を持つことになる。標準化したは、ある値が平均から離れた距離が標準偏差の何倍であるかを意味する。
ある値 が平均から離れた距離
確率密度関数の全体の面積は常に 1であり、身長でも体重でも平均()±1×標準偏差(), 平均()±2×標準偏差()、平均()±3×標準偏差()の面積は同じである。従って、身長や体重のように単位が異なっても、標準化して標準正規分布表を利用すると、一定区間の確率(面積)を求めることができる。
図表3 身長、体重、標準正規分布の確率密度関数
例えばある工場で生産される「さば 缶詰」の内容量が平均300gで、標準偏差は10gの正規分布を従うと仮定しよう。そこで、ある日この工場で生産された「さば 缶詰」をランダムに抽出し、その内容量が284g以上315g以下である確率を求めたい時には、与えられた数値を「標準化」し、標準正規分布表を利用し、確率(面積)を求めることができる。
 
まず、式(5)を利用して284gと315gを標準化すると、標準化した値はそれぞれ-1.6と1.5になる。つまり、確率変数が284gから315gの間に入る確率と、標準正規分布の変数であるが-1.6と1.5の間に入る確率は同じである(図表4)。また、標準正規分布の確率密度関数は左右対称であるので、の値が0から-1.6の間に入る確率は、の値が0から1.6の間に入る確率を標準正規分布表から確認すればよい(式(6))。そこで、標準正規分布表を利用してその確率を求めると、確率変数が284gから315gの間に入る確率は、87.84%(0.4452+0.4332=0.8784)であることが分かる(図表5)。
 
0から1.6の間に入る確率
図表4 標準正規分布表で確認した確率変数Xが284gから315gの間に入る確率
図表5 標準正規分布表で確認した確率変数 が284gから315gの間に入る確率
本稿の内容が正規分布、標準化、標準正規分布の概念を理解するにおいて少しでも参考になれば幸いである。
付表 標準正規分布表
twitter Facebook このエントリーをはてなブックマークに追加 Pocketで後で読む

このレポートの関連カテゴリ

生活研究部   主任研究員・ヘルスケアリサーチセンター・ジェロントロジー推進室兼任

金 明中 (きむ みょんじゅん)

研究・専門分野
社会保障論、労働経済学、日・韓社会政策比較分析、韓国経済

(2021年01月19日「研究員の眼」)

アクセスランキング

レポート紹介

【統計分析を理解しよう:正規分布、標準化、標準正規分布の概念】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。

統計分析を理解しよう:正規分布、標準化、標準正規分布の概念のレポート Topへ