- シンクタンクならニッセイ基礎研究所 >
- 経済 >
- 経済予測・経済見通し >
- 統計分析を理解しよう:正規分布、標準化、標準正規分布の概念
コラム
2021年01月19日
正規分布とは?
さらに、確率分布は離散確率分布と連続確率分布に区分することができる。まず、離散確率分布とは、アンケートなどで男性=1、女性=2といったように数値そのものには意味がなく、四則演算ができないなどデータを区分するためのデータ(このようなデータを「質的データ」あるいは「離散データ」という)で、確率変数が連続しておらず、離散的である場合の確率分布である。
一方、連続確率分布とは、あるクラスにおける学生の体重、身長など、数値そのものに意味があり、四則演算ができるデータ(このようなデータを「量的データ」あるいは「連続データ」という)で、確率変数が連続的な場合の確率分布である1。そして、連続確率分布をグラフで描いたものが確率密度関数である。確率密度関数は図表1のように多様な形があり得るものの、Cのように真ん中に山が来て左右対称の形をしているのが「正規分布」の一般的な形である。
一方、連続確率分布とは、あるクラスにおける学生の体重、身長など、数値そのものに意味があり、四則演算ができるデータ(このようなデータを「量的データ」あるいは「連続データ」という)で、確率変数が連続的な場合の確率分布である1。そして、連続確率分布をグラフで描いたものが確率密度関数である。確率密度関数は図表1のように多様な形があり得るものの、Cのように真ん中に山が来て左右対称の形をしているのが「正規分布」の一般的な形である。
一般的に正規分布は、次のような特徴がある。
(1) -∞~∞の実数値をとる。
(2) 山が一つで平均値(、以下、平均)付近の確率密度が最も大きく、平均と中央値、最頻値が一致する。
(3) 平均を中心として左右対称の釣鐘型の分布である。
(4) 平均から離れるほど、確率密度が小さくなる。
(5) 正規分布のカーブの下の面積は形にかかわらず、どれも”1”になっており、分布のカーブの下の面積は確率を示している。
つまり、
⇒ 平均から左右に標準偏差1つ分(平均()±標準偏差()×1)の区間にデータが入る確率は68.26%
⇒ 平均から左右に標準偏差2つ分(平均()±標準偏差()×2)の区間にデータが入る確率は95.44%
⇒ 平均から左右に標準偏差3つ分(平均()±標準偏差()×3)の区間にデータが入る確率は99.74%
である(図表2)。
(1) -∞~∞の実数値をとる。
(2) 山が一つで平均値(、以下、平均)付近の確率密度が最も大きく、平均と中央値、最頻値が一致する。
(3) 平均を中心として左右対称の釣鐘型の分布である。
(4) 平均から離れるほど、確率密度が小さくなる。
(5) 正規分布のカーブの下の面積は形にかかわらず、どれも”1”になっており、分布のカーブの下の面積は確率を示している。
つまり、
⇒ 平均から左右に標準偏差1つ分(平均()±標準偏差()×1)の区間にデータが入る確率は68.26%
⇒ 平均から左右に標準偏差2つ分(平均()±標準偏差()×2)の区間にデータが入る確率は95.44%
⇒ 平均から左右に標準偏差3つ分(平均()±標準偏差()×3)の区間にデータが入る確率は99.74%
である(図表2)。
式(4)を見ると、かなり難しい式のように見えるものの、は3.14159…、eは2.71828…という値がすでに決まっているので、平均()と標準偏差()さえ分かれば正規分布の形が決まることになる。つまり、平均は確率密度関数のグラフの位置を決め、標準偏差はグラフの形を決定する。標準偏差が小さいと、平均付近にデータが集まり、標準偏差が大きいと、データが平均から大きく離れることになる。
1 変数(variables、変量とも言う)とは、調査対象により異なり、ある調査を行って得られた結果(データ)に名前を付けたものである。また、確率変数とは、標本空間にある全ての要素を実数に対応させたものだと言える。
1 変数(variables、変量とも言う)とは、調査対象により異なり、ある調査を行って得られた結果(データ)に名前を付けたものである。また、確率変数とは、標本空間にある全ての要素を実数に対応させたものだと言える。
標準化と標準正規分布
平均と標準偏差により決まる正規分布は世の中に数多く存在し、その形も確率変数により異なるため、世の中のすべての正規分布を分布表として用いることはできない。そこで、ある確率変数のデータが正規分布に従うと仮定できる場合、このデータを標準化した「標準正規分布表」を用いて一定区間の確率(面積)を求める方法が利用されている。
標準化とは、世の中の無数の確率変数が同じ平均と標準偏差を持つように確率変数を変換することである。確率変数を標準化するには、該当する値()から平均()を引き、標準偏差()で割ればよい。すると、確率変数は標準化確率変数に変わり、確率変数の単位に関係なく平均0、標準偏差1の値を持つことになる。標準化したは、ある値が平均から離れた距離が標準偏差の何倍であるかを意味する。
標準化とは、世の中の無数の確率変数が同じ平均と標準偏差を持つように確率変数を変換することである。確率変数を標準化するには、該当する値()から平均()を引き、標準偏差()で割ればよい。すると、確率変数は標準化確率変数に変わり、確率変数の単位に関係なく平均0、標準偏差1の値を持つことになる。標準化したは、ある値が平均から離れた距離が標準偏差の何倍であるかを意味する。
例えばある工場で生産される「さば 缶詰」の内容量が平均300gで、標準偏差は10gの正規分布を従うと仮定しよう。そこで、ある日この工場で生産された「さば 缶詰」をランダムに抽出し、その内容量が284g以上315g以下である確率を求めたい時には、与えられた数値を「標準化」し、標準正規分布表を利用し、確率(面積)を求めることができる。
まず、式(5)を利用して284gと315gを標準化すると、標準化した値はそれぞれ-1.6と1.5になる。つまり、確率変数が284gから315gの間に入る確率と、標準正規分布の変数であるが-1.6と1.5の間に入る確率は同じである(図表4)。また、標準正規分布の確率密度関数は左右対称であるので、の値が0から-1.6の間に入る確率は、の値が0から1.6の間に入る確率を標準正規分布表から確認すればよい(式(6))。そこで、標準正規分布表を利用してその確率を求めると、確率変数が284gから315gの間に入る確率は、87.84%(0.4452+0.4332=0.8784)であることが分かる(図表5)。
まず、式(5)を利用して284gと315gを標準化すると、標準化した値はそれぞれ-1.6と1.5になる。つまり、確率変数が284gから315gの間に入る確率と、標準正規分布の変数であるが-1.6と1.5の間に入る確率は同じである(図表4)。また、標準正規分布の確率密度関数は左右対称であるので、の値が0から-1.6の間に入る確率は、の値が0から1.6の間に入る確率を標準正規分布表から確認すればよい(式(6))。そこで、標準正規分布表を利用してその確率を求めると、確率変数が284gから315gの間に入る確率は、87.84%(0.4452+0.4332=0.8784)であることが分かる(図表5)。
このレポートの関連カテゴリ
03-3512-1825
(2021年01月19日「研究員の眼」)
公式SNSアカウント
新着レポートを随時お届け!日々の情報収集にぜひご活用ください。
新着記事
-
2024年03月19日
保険会社の再建と破綻処理等の制度構築の動き(英国)-PRAが「ソルベント・イグジット」の導入について意見募集中 -
2024年03月19日
3億人の年金をどう確保するか(中国)。【アジア・新興国】中国保険市場の最新動向(62) -
2024年03月19日
女性管理職の8割が職務と職場に「課題感」を抱えている~「中高年女性会社員の管理職志向とキャリア意識等に関する調査~『一般職』に焦点をあてて~」より(5) -
2024年03月19日
今週のレポート・コラムまとめ【3/12-3/18発行分】 -
2024年03月18日
企業は女性を管理職に「登用」すれば良いのか~ダイバーシティ経営を生産性向上につなげるために~
レポート紹介
-
研究領域
-
経済
-
金融・為替
-
資産運用・資産形成
-
年金
-
社会保障制度
-
保険
-
不動産
-
経営・ビジネス
-
暮らし
-
ジェロントロジー(高齢社会総合研究)
-
医療・介護・健康・ヘルスケア
-
政策提言
-
-
注目テーマ・キーワード
-
統計・指標・重要イベント
-
媒体
- アクセスランキング
お知らせ
-
2024年02月19日
News Release
-
2023年07月03日
News Release
-
2023年04月27日
News Release
【統計分析を理解しよう:正規分布、標準化、標準正規分布の概念】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。
統計分析を理解しよう:正規分布、標準化、標準正規分布の概念のレポート Topへ