2023年06月27日

機械学習による海外景気イメージの定量化

経済研究部 主任研究員 高山 武士

文字サイズ

(補論)――景気イメージ(定量化)の変換器の作成

言語情報の数値化に本稿では2種類の機械学習(深層学習)の手法を用いた。

1つ目(手法①)は、上述の山本・松尾(2016)5や内閣府(2018)6を参考に、分散表現(単語のベクトル表現)をLSTM(Long Short-Term Memory)を用いて学習させる方法を用いた。文のトークン化(≒単語・形態素化)にはSudachiを用い(学習・推計では原形を利用)、分散表現の作成にはchiVe7を利用した8。文章の数値化には回帰モデルを利用し、学習データである景気ウォッチャー調査の現状判断を、「悪くなっている」=0、「やや悪くなっている」=1、「変わらない」=2、「やや良くなっている」=3、「良くなっている」=4として数値化している。

2つ目(手法②)は、青嶋・中川(2019)9や西良・菅・高橋(2020)10を参考に、分散表現をBERT(Bidirectional Encoder Representation from Transformers)を用いて学習させる方法を用いた。本稿では東北大学および東京大学が公開している事前学習済みモデルとトークナイザを利用11し、景気ウォッチャー調査のデータでファインチューニングを行った。文書の数値化には多値分類モデルを利用し、景気ウォッチャー調査の現状判断を、「悪くなっている」=0、「やや悪くなっている」=1、「変わらない」=2、「やや良くなっている」=3、「良くなっている」=4として数値化している。

なお、いずれの手法でも、学習データは12年1月から23年4月までの景気ウォッチャー調査の景気判断理由集のうち「現状」のデータのみ利用し(「先行き」のデータは利用していない)、75%を学習データ、25%を検証データとして用いた。対象となる文章は改行もしくは句点(「。」)で区切り、1文とし、1文ごとに推計値(手法①では回帰値(実数値)、手法②では分類値(0-4のいずれかの値))を算出している。また、15トークンに満たない場合は推計の対象外とした12。さらに方法②においては、1文が512トークン以上の長文となる場合にはそれ以降の文を削除している。文章全体の景気イメージは、文章を構成する各文の推計値の単純平均としている。

今回、利用したモデルの精度は方法①では絶対誤差で0.38(学習データ)および0.43(検証データ)、方法②では正答率で85%(学習データ)および63%(検証データ)だった。いずれも上記で紹介した先行研究ほどの精度ではないが、本稿はモデルの精度向上を目的とした分析ではなく、また異なる手法①②で作成した指数が(水準は違うものの)時系列の動きが類似していることから、景気イメージをある程度定量化できていると判断した。
 
5 山本裕樹、松尾豊(2016)「景気ウォッチャー調査を学習データに用いた金融レポートの指数化」『人工知能学会全国大会論文集』、および同レポートを加筆修正した山本裕樹、落合桂一、鈴木雅大、松尾豊(2022)「LSTMモデルによる金融経済レポートの指数化」『情報処理学会論文誌 デジタルプラクティス』Vol.3 No.2 93–103 (Apr. 2022)を参考にした。後者ではテキストデータのセンチメント分析の先行研究等も紹介されている。
6 内閣府(2018)「消費行動分析の新たな視点 ビッグデータ・AIを活用した消費分析」『平成30年度 年次経済財政報告』第1章第3節2、およびそこでの分析を解説した小寺信也、藤田隼平、井上祐介、新田尭之(2018)「POS・テキストデータを用いた消費分析 ―機械学習を活用して―」経済財政分析ディスカッション・ペーパー・シリーズを参考にした。
7 真鍋陽俊、岡照晃、海川祥毅、髙岡一馬、内田佳孝、浅原正幸(2019)「複数粒度の分割結果に基づく日本語単語分散表現」言語処理学会第25回年次大会を参考。GitHubから入手した。
8 追加学習などは実施していない。形態素解析器のSudachiで利用した辞書は「20200722-core」であり、最近の単語については適切に(最近の使い方に則した)トークン化がされていない可能性がある点には留意が必要。
9 青嶋 智久、中川 慧(2019)「日本語BERTモデルを用いた経済テキストデータのセンチメント分析」人工知能学会全国大会論文集
10 西良浩、菅愛子、高橋大志(2020)「ニュースおよび高頻度データを用いたディープラーニングによる株式変動の分析―BERT によるニュース評価―」経営課題にAIを!ビジネスインフォマティクス研究会 (第14回)
11 事前学習済みモデルは東京大学和泉研究室が公開しているizumi-lab/bert-base-japanese-fin-additionalを用い、トークナイザには当該モデルのベースとなっている東北大学が公開しているcl-tohoku/bert-base-japaneseを用いた。
12 一方、文章の取捨選択は行っておらず、参考文献の紹介など本文と関係のない情報も含まれている。

(2023年06月27日「基礎研レポート」)

Xでシェアする Facebookでシェアする

経済研究部   主任研究員

高山 武士 (たかやま たけし)

研究・専門分野
欧州経済、世界経済

経歴
  • 【職歴】
     2006年 日本生命保険相互会社入社(資金証券部)
     2009年 日本経済研究センターへ派遣
     2010年 米国カンファレンスボードへ派遣
     2011年 ニッセイ基礎研究所(アジア・新興国経済担当)
     2014年 同、米国経済担当
     2014年 日本生命保険相互会社(証券管理部)
     2020年 ニッセイ基礎研究所
     2023年より現職

     ・SBIR(Small Business Innovation Research)制度に係る内閣府スタートアップ
      アドバイザー(2024年4月~)

    【加入団体等】
     ・日本証券アナリスト協会 検定会員

公式SNSアカウント

新着レポートを随時お届け!
日々の情報収集にぜひご活用ください。

週間アクセスランキング

レポート紹介

【機械学習による海外景気イメージの定量化】【シンクタンク】ニッセイ基礎研究所は、保険・年金・社会保障、経済・金融・不動産、暮らし・高齢社会、経営・ビジネスなどの各専門領域の研究員を抱え、様々な情報提供を行っています。

機械学習による海外景気イメージの定量化のレポート Topへ