- シンクタンクならニッセイ基礎研究所 >
- 経済 >
- 世界経済 >
- 機械学習による海外景気イメージの定量化
2023年06月27日
(補論)――景気イメージ(定量化)の変換器の作成
言語情報の数値化に本稿では2種類の機械学習(深層学習)の手法を用いた。
1つ目(手法①)は、上述の山本・松尾(2016)5や内閣府(2018)6を参考に、分散表現(単語のベクトル表現)をLSTM(Long Short-Term Memory)を用いて学習させる方法を用いた。文のトークン化(≒単語・形態素化)にはSudachiを用い(学習・推計では原形を利用)、分散表現の作成にはchiVe7を利用した8。文章の数値化には回帰モデルを利用し、学習データである景気ウォッチャー調査の現状判断を、「悪くなっている」=0、「やや悪くなっている」=1、「変わらない」=2、「やや良くなっている」=3、「良くなっている」=4として数値化している。
2つ目(手法②)は、青嶋・中川(2019)9や西良・菅・高橋(2020)10を参考に、分散表現をBERT(Bidirectional Encoder Representation from Transformers)を用いて学習させる方法を用いた。本稿では東北大学および東京大学が公開している事前学習済みモデルとトークナイザを利用11し、景気ウォッチャー調査のデータでファインチューニングを行った。文書の数値化には多値分類モデルを利用し、景気ウォッチャー調査の現状判断を、「悪くなっている」=0、「やや悪くなっている」=1、「変わらない」=2、「やや良くなっている」=3、「良くなっている」=4として数値化している。
なお、いずれの手法でも、学習データは12年1月から23年4月までの景気ウォッチャー調査の景気判断理由集のうち「現状」のデータのみ利用し(「先行き」のデータは利用していない)、75%を学習データ、25%を検証データとして用いた。対象となる文章は改行もしくは句点(「。」)で区切り、1文とし、1文ごとに推計値(手法①では回帰値(実数値)、手法②では分類値(0-4のいずれかの値))を算出している。また、15トークンに満たない場合は推計の対象外とした12。さらに方法②においては、1文が512トークン以上の長文となる場合にはそれ以降の文を削除している。文章全体の景気イメージは、文章を構成する各文の推計値の単純平均としている。
今回、利用したモデルの精度は方法①では絶対誤差で0.38(学習データ)および0.43(検証データ)、方法②では正答率で85%(学習データ)および63%(検証データ)だった。いずれも上記で紹介した先行研究ほどの精度ではないが、本稿はモデルの精度向上を目的とした分析ではなく、また異なる手法①②で作成した指数が(水準は違うものの)時系列の動きが類似していることから、景気イメージをある程度定量化できていると判断した。
5 山本裕樹、松尾豊(2016)「景気ウォッチャー調査を学習データに用いた金融レポートの指数化」『人工知能学会全国大会論文集』、および同レポートを加筆修正した山本裕樹、落合桂一、鈴木雅大、松尾豊(2022)「LSTMモデルによる金融経済レポートの指数化」『情報処理学会論文誌 デジタルプラクティス』Vol.3 No.2 93–103 (Apr. 2022)を参考にした。後者ではテキストデータのセンチメント分析の先行研究等も紹介されている。
6 内閣府(2018)「消費行動分析の新たな視点 ビッグデータ・AIを活用した消費分析」『平成30年度 年次経済財政報告』第1章第3節2、およびそこでの分析を解説した小寺信也、藤田隼平、井上祐介、新田尭之(2018)「POS・テキストデータを用いた消費分析 ―機械学習を活用して―」経済財政分析ディスカッション・ペーパー・シリーズを参考にした。
7 真鍋陽俊、岡照晃、海川祥毅、髙岡一馬、内田佳孝、浅原正幸(2019)「複数粒度の分割結果に基づく日本語単語分散表現」言語処理学会第25回年次大会を参考。GitHubから入手した。
8 追加学習などは実施していない。形態素解析器のSudachiで利用した辞書は「20200722-core」であり、最近の単語については適切に(最近の使い方に則した)トークン化がされていない可能性がある点には留意が必要。
9 青嶋 智久、中川 慧(2019)「日本語BERTモデルを用いた経済テキストデータのセンチメント分析」人工知能学会全国大会論文集
10 西良浩、菅愛子、高橋大志(2020)「ニュースおよび高頻度データを用いたディープラーニングによる株式変動の分析―BERT によるニュース評価―」経営課題にAIを!ビジネスインフォマティクス研究会 (第14回)
11 事前学習済みモデルは東京大学和泉研究室が公開しているizumi-lab/bert-base-japanese-fin-additionalを用い、トークナイザには当該モデルのベースとなっている東北大学が公開しているcl-tohoku/bert-base-japaneseを用いた。
12 一方、文章の取捨選択は行っておらず、参考文献の紹介など本文と関係のない情報も含まれている。
1つ目(手法①)は、上述の山本・松尾(2016)5や内閣府(2018)6を参考に、分散表現(単語のベクトル表現)をLSTM(Long Short-Term Memory)を用いて学習させる方法を用いた。文のトークン化(≒単語・形態素化)にはSudachiを用い(学習・推計では原形を利用)、分散表現の作成にはchiVe7を利用した8。文章の数値化には回帰モデルを利用し、学習データである景気ウォッチャー調査の現状判断を、「悪くなっている」=0、「やや悪くなっている」=1、「変わらない」=2、「やや良くなっている」=3、「良くなっている」=4として数値化している。
2つ目(手法②)は、青嶋・中川(2019)9や西良・菅・高橋(2020)10を参考に、分散表現をBERT(Bidirectional Encoder Representation from Transformers)を用いて学習させる方法を用いた。本稿では東北大学および東京大学が公開している事前学習済みモデルとトークナイザを利用11し、景気ウォッチャー調査のデータでファインチューニングを行った。文書の数値化には多値分類モデルを利用し、景気ウォッチャー調査の現状判断を、「悪くなっている」=0、「やや悪くなっている」=1、「変わらない」=2、「やや良くなっている」=3、「良くなっている」=4として数値化している。
なお、いずれの手法でも、学習データは12年1月から23年4月までの景気ウォッチャー調査の景気判断理由集のうち「現状」のデータのみ利用し(「先行き」のデータは利用していない)、75%を学習データ、25%を検証データとして用いた。対象となる文章は改行もしくは句点(「。」)で区切り、1文とし、1文ごとに推計値(手法①では回帰値(実数値)、手法②では分類値(0-4のいずれかの値))を算出している。また、15トークンに満たない場合は推計の対象外とした12。さらに方法②においては、1文が512トークン以上の長文となる場合にはそれ以降の文を削除している。文章全体の景気イメージは、文章を構成する各文の推計値の単純平均としている。
今回、利用したモデルの精度は方法①では絶対誤差で0.38(学習データ)および0.43(検証データ)、方法②では正答率で85%(学習データ)および63%(検証データ)だった。いずれも上記で紹介した先行研究ほどの精度ではないが、本稿はモデルの精度向上を目的とした分析ではなく、また異なる手法①②で作成した指数が(水準は違うものの)時系列の動きが類似していることから、景気イメージをある程度定量化できていると判断した。
5 山本裕樹、松尾豊(2016)「景気ウォッチャー調査を学習データに用いた金融レポートの指数化」『人工知能学会全国大会論文集』、および同レポートを加筆修正した山本裕樹、落合桂一、鈴木雅大、松尾豊(2022)「LSTMモデルによる金融経済レポートの指数化」『情報処理学会論文誌 デジタルプラクティス』Vol.3 No.2 93–103 (Apr. 2022)を参考にした。後者ではテキストデータのセンチメント分析の先行研究等も紹介されている。
6 内閣府(2018)「消費行動分析の新たな視点 ビッグデータ・AIを活用した消費分析」『平成30年度 年次経済財政報告』第1章第3節2、およびそこでの分析を解説した小寺信也、藤田隼平、井上祐介、新田尭之(2018)「POS・テキストデータを用いた消費分析 ―機械学習を活用して―」経済財政分析ディスカッション・ペーパー・シリーズを参考にした。
7 真鍋陽俊、岡照晃、海川祥毅、髙岡一馬、内田佳孝、浅原正幸(2019)「複数粒度の分割結果に基づく日本語単語分散表現」言語処理学会第25回年次大会を参考。GitHubから入手した。
8 追加学習などは実施していない。形態素解析器のSudachiで利用した辞書は「20200722-core」であり、最近の単語については適切に(最近の使い方に則した)トークン化がされていない可能性がある点には留意が必要。
9 青嶋 智久、中川 慧(2019)「日本語BERTモデルを用いた経済テキストデータのセンチメント分析」人工知能学会全国大会論文集
10 西良浩、菅愛子、高橋大志(2020)「ニュースおよび高頻度データを用いたディープラーニングによる株式変動の分析―BERT によるニュース評価―」経営課題にAIを!ビジネスインフォマティクス研究会 (第14回)
11 事前学習済みモデルは東京大学和泉研究室が公開しているizumi-lab/bert-base-japanese-fin-additionalを用い、トークナイザには当該モデルのベースとなっている東北大学が公開しているcl-tohoku/bert-base-japaneseを用いた。
12 一方、文章の取捨選択は行っておらず、参考文献の紹介など本文と関係のない情報も含まれている。
(2023年06月27日「基礎研レポート」)
このレポートの関連カテゴリ
03-3512-1818
経歴
- 【職歴】
2006年 日本生命保険相互会社入社(資金証券部)
2009年 日本経済研究センターへ派遣
2010年 米国カンファレンスボードへ派遣
2011年 ニッセイ基礎研究所(アジア・新興国経済担当)
2014年 同、米国経済担当
2014年 日本生命保険相互会社(証券管理部)
2020年 ニッセイ基礎研究所
2023年より現職
・SBIR(Small Business Innovation Research)制度に係る内閣府スタートアップ
アドバイザー(2024年4月~)
【加入団体等】
・日本証券アナリスト協会 検定会員
高山 武士のレポート
日付 | タイトル | 執筆者 | 媒体 |
---|---|---|---|
2024/11/13 | 英国雇用関連統計(24年10月)-賃金上昇圧力は依然として根強い | 高山 武士 | 経済・金融フラッシュ |
2024/11/08 | 英国金融政策(11月MPC公表)-新予算案を受けてインフレ見通しを上方修正 | 高山 武士 | 経済・金融フラッシュ |
2024/11/01 | ユーロ圏失業率(2024年9月)-失業率は過去最低水準の6.3% | 高山 武士 | 経済・金融フラッシュ |
2024/11/01 | ユーロ圏消費者物価(24年10月)-総合指数は再び前年比2%まで上昇 | 高山 武士 | 経済・金融フラッシュ |
公式SNSアカウント
新着レポートを随時お届け!日々の情報収集にぜひご活用ください。
新着記事
-
2024年11月13日
インド消費者物価(24年10月)~大雨による作物被害と食用油の国際価格上昇により昨年8月以来の高水準に -
2024年11月13日
英国雇用関連統計(24年10月)-賃金上昇圧力は依然として根強い -
2024年11月13日
企業物価指数2024年10月~国内企業物価は2ヵ月連続で伸び拡大~ -
2024年11月13日
Japan Real Estate Market Quarterly Review-Third Quarter 2024 -
2024年11月12日
これからの資産形成、加速のカギは「金融リテラシー・ギャップ」か-「貯蓄から投資へ」の20年間…日本人に足りなかったのは「自信」
レポート紹介
-
研究領域
-
経済
-
金融・為替
-
資産運用・資産形成
-
年金
-
社会保障制度
-
保険
-
不動産
-
経営・ビジネス
-
暮らし
-
ジェロントロジー(高齢社会総合研究)
-
医療・介護・健康・ヘルスケア
-
政策提言
-
-
注目テーマ・キーワード
-
統計・指標・重要イベント
-
媒体
- アクセスランキング
お知らせ
-
2024年07月01日
News Release
-
2024年04月02日
News Release
-
2024年02月19日
News Release
【機械学習による海外景気イメージの定量化】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。
機械学習による海外景気イメージの定量化のレポート Topへ