- シンクタンクならニッセイ基礎研究所 >
- 経済 >
- 日本経済 >
- ビッグデータで何が変わるか
文字サイズ
- 小
- 中
- 大
ここ数年で、情報を得るためにウェブサイトを検索する機会が増えた。エコノミストとして電子データを解析する機会も多い。最近は「ビッグデータ」という言葉も良く聞くようになり、改めて大量の情報に囲まれていることを認識させられる。
ビッグデータという言葉には明確な定義はないが、「3V」によって特徴付けされることが多い。これは、「量(Volume)」「多様性(Variety)」「速度(Velocity)」の頭文字で、つまり、「高速で多様かつ大量に生み出される」データのことである。グーグルの検索欄には、この瞬間も多くの人が様々な言葉を入力しているだろうし、ツイッター上には、様々な内容のツイート(つぶやき)が投稿されている。まさに、高速で多様な大量のデータ(ここでは検索ワードやツイート)が生み出されており、3Vのイメージに合致する。大規模なだけでなく、多様かつ高頻度で生み出されていることも大きな特徴だ。スマートフォンから取得される位置情報データや、防犯カメラで記録される人間の顔(表情)や動きのデータもこうした3Vデータの代表と言える。
(今までの統計学とビッグデータ)
ビッグデータと言っても、データをどこからがビッグか明確に区切ることはできない。突如として、画期的な分析手法が生まれた訳でもない。そのため、言葉だけが流行っている感じもするが、今まで非現実的(非常識)と考えられていた分析手法に脚光が当たっているという側面も確かにあるだろう。
ビクター・マイヤー=ショーンベルガー、ケネス・クキエは、ビッグデータ分析が進んだことで、(1)できるだけ全データを使う、(2)精度は重要ではなくなる、(3)因果関係ではなく相関関係が重視される、といった変化(いわば、パラダイム・シフト)が起きていると指摘する1。
筆者は、「法則を確かめる道具」としてのデータ分析から「法則を発見する道具」としてのデータ分析に(再び)注目が集まっているように感じる2。上記の(3)に近いが、因果関係と相関関係の違いというよりは、データを分析する前に、あらかじめ強い仮説(仮定)を設けているか、そうでないかという違いが大きいように思う。
具体的に言えば、前者には、例えば「仮説検定」と呼ばれる伝統的な統計の手法がある。読んで字のごとく「仮説」が正しいか調べるために、データを使って検定(検証)する方法である3。
一方、後者のアプローチは、「データマイニング」と呼ばれる。こちらも読んで字のごとくデータからお宝となる事実を「発掘(マイニング:mining)」する作業である。このアプローチは、とにかく沢山のモノの中からなんらか関係があるものを手当たり次第に探す4。
感覚的に言えば、同じツイートと株価の関係を調べるにしても、「ポジティブ(楽観的)なツイートが多いときには株価が上がるだろう」と仮説を設定してデータを調査するのは仮説検定、「株価が上がるときに投稿されているツイートの特徴はなんだろうかと内容、言語、単語数、地域など様々なことを調べていく」方法はデータマイニングである。
前者のようにデータを「仮説を検証する」ために使うならば、母集団が大きくてもビッグデータを使う必要はない5。ただ、データを「法則を発見する」ために使うならば、ビッグデータはできるだけ大きい方が良い。発掘しがいがあり、思い至らなかった知見が得られる期待も高まる6。
こうした「法則の発見」は、これまで熟練労働者の経験などに頼ってきた部分が大きい。しかし、これらの知識や法則の発見というプロセスに、データの力が役立つようになっている。実際、検索ワード、ツイート、位置情報データ、顔や動きのデータなどから、お宝を発掘する動きは進んでいる。
(人間の役割とコンピュータの役割)
もうひとつ注目すべきは、データを解析するコンピュータ(アルゴリズム)の発達である。処理能力の向上だけでなく、機械学習(ベイズ推定)など、3Vのデータと相性が良い分析手法・アルゴリズムが発達し、コンピュータが代替できる領域が広がっている。情報の「蓄積や集計」は機械が最も得意とするところだが、それだけではない。
例えば、検索サイトでは、大量のウェブサイトの中から適切と思われるサイトを上位に表示してくれる。つまり、情報の「取捨選択」もほとんど機械がしてくれる。オンラインショッピングで人の購買履歴を学習し、その人が好みそうな商品をオススメすることなども機械が行うようになった。
また、受け取ったメールを迷惑メールか否かの判断も機械がしてくれる。つまり、情報の「解釈」も、ある程度のルールがあればやってくれる。これらは、多くのデータ(購買履歴やメール)を学習させればさせるほど性能が上がる。道徳的な議論を棚上げすれば、人事評価や就職(採用)などの相性判断はすぐに機械化できるだろう(男女の出会いも…)。
将棋ソフトは、まだ短時間での全数探索が出来ないけれど、大量の局面(良い手・悪い手)を学習することで、プロ棋士に勝利できるほどの実力をつけている。
これまで、コンピュータはデータを「集計や蓄積」することが主流だったけれど、いまは、コンピュータがデータから「判断や評価」を行うようになっている。
今後、ビッグデータの流行を経て、さらに機械の存在感は大きくなるだろう。それだけ人間の役割は少なくなるかもしれない。
ただ、それは人間がより「人間らしい」仕事に注力できる時代なのかもしれない。そういった「人間らしさ」とはなんだろうかと考えつつ、ビッグデータの今後に注目している。
(2013年09月12日「研究員の眼」)

03-3512-1818
- 【職歴】
2006年 日本生命保険相互会社入社(資金証券部)
2009年 日本経済研究センターへ派遣
2010年 米国カンファレンスボードへ派遣
2011年 ニッセイ基礎研究所(アジア・新興国経済担当)
2014年 同、米国経済担当
2014年 日本生命保険相互会社(証券管理部)
2020年 ニッセイ基礎研究所
2023年より現職
・SBIR(Small Business Innovation Research)制度に係る内閣府スタートアップ
アドバイザー(2024年4月~)
【加入団体等】
・日本証券アナリスト協会 検定会員
高山 武士のレポート
日付 | タイトル | 執筆者 | 媒体 |
---|---|---|---|
2025/05/01 | ユーロ圏GDP(2025年1-3月期)-前期比0.4%に加速 | 高山 武士 | 経済・金融フラッシュ |
2025/04/23 | IMF世界経済見通し-トランプ関税で世界成長率は3%割れに | 高山 武士 | 経済・金融フラッシュ |
2025/04/18 | ECB政策理事会-トランプ関税を受け6会合連続の利下げ決定 | 高山 武士 | 経済・金融フラッシュ |
2025/04/16 | 英国雇用関連統計(25年3月)-緩やかながらも賃金上昇率の減速傾向が継続 | 高山 武士 | 経済・金融フラッシュ |
新着記事
-
2025年05月01日
ユーロ圏GDP(2025年1-3月期)-前期比0.4%に加速 -
2025年04月30日
2025年1-3月期の実質GDP~前期比▲0.2%(年率▲0.9%)を予測~ -
2025年04月30日
「スター・ウォーズ」ファン同士をつなぐ“SWAG”とは-今日もまたエンタメの話でも。(第5話) -
2025年04月30日
米中摩擦に対し、持久戦に備える中国-トランプ関税の打撃に耐えるため、多方面にわたり対策を強化 -
2025年04月30日
米国個人年金販売額は2024年も過去最高を更新-トランプ関税政策で今後の動向は不透明に-
レポート紹介
-
研究領域
-
経済
-
金融・為替
-
資産運用・資産形成
-
年金
-
社会保障制度
-
保険
-
不動産
-
経営・ビジネス
-
暮らし
-
ジェロントロジー(高齢社会総合研究)
-
医療・介護・健康・ヘルスケア
-
政策提言
-
-
注目テーマ・キーワード
-
統計・指標・重要イベント
-
媒体
- アクセスランキング
お知らせ
-
2025年04月02日
News Release
-
2024年11月27日
News Release
-
2024年07月01日
News Release
【ビッグデータで何が変わるか】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。
ビッグデータで何が変わるかのレポート Topへ