機械学習による海外景気イメージの定量化

経済研究部主任研究員高山武士

（補論）――景気イメージ（定量化）の変換器の作成

言語情報の数値化に本稿では2種類の機械学習（深層学習）の手法を用いた。

1つ目（手法①）は、上述の山本・松尾（2016）⁵や内閣府（2018）⁶を参考に、分散表現（単語のベクトル表現）をＬＳＴＭ（Long Short-Term Memory）を用いて学習させる方法を用いた。文のトークン化（≒単語・形態素化）にはSudachiを用い（学習・推計では原形を利用）、分散表現の作成にはchiVe⁷を利用した⁸。文章の数値化には回帰モデルを利用し、学習データである景気ウォッチャー調査の現状判断を、「悪くなっている」＝0、「やや悪くなっている」＝1、「変わらない」＝2、「やや良くなっている」＝3、「良くなっている」＝4として数値化している。

2つ目（手法②）は、青嶋・中川（2019）⁹や西良・菅・高橋（2020）¹⁰を参考に、分散表現をＢＥＲＴ（Bidirectional Encoder Representation from Transformers）を用いて学習させる方法を用いた。本稿では東北大学および東京大学が公開している事前学習済みモデルとトークナイザを利用¹¹し、景気ウォッチャー調査のデータでファインチューニングを行った。文書の数値化には多値分類モデルを利用し、景気ウォッチャー調査の現状判断を、「悪くなっている」＝0、「やや悪くなっている」＝1、「変わらない」＝2、「やや良くなっている」＝3、「良くなっている」＝4として数値化している。

なお、いずれの手法でも、学習データは12年1月から23年4月までの景気ウォッチャー調査の景気判断理由集のうち「現状」のデータのみ利用し（「先行き」のデータは利用していない）、75％を学習データ、25％を検証データとして用いた。対象となる文章は改行もしくは句点（「。」）で区切り、1文とし、1文ごとに推計値（手法①では回帰値（実数値）、手法②では分類値（0-4のいずれかの値））を算出している。また、15トークンに満たない場合は推計の対象外とした¹²。さらに方法②においては、1文が512トークン以上の長文となる場合にはそれ以降の文を削除している。文章全体の景気イメージは、文章を構成する各文の推計値の単純平均としている。

今回、利用したモデルの精度は方法①では絶対誤差で0.38（学習データ）および0.43（検証データ）、方法②では正答率で85％（学習データ）および63％（検証データ）だった。いずれも上記で紹介した先行研究ほどの精度ではないが、本稿はモデルの精度向上を目的とした分析ではなく、また異なる手法①②で作成した指数が（水準は違うものの）時系列の動きが類似していることから、景気イメージをある程度定量化できていると判断した。

⁵ 山本裕樹、松尾豊（2016）「景気ウォッチャー調査を学習データに用いた金融レポートの指数化」『人工知能学会全国大会論文集』、および同レポートを加筆修正した山本裕樹、落合桂一、鈴木雅大、松尾豊（2022）「LSTMモデルによる金融経済レポートの指数化」『情報処理学会論文誌　デジタルプラクティス』Vol.3 No.2 93–103 (Apr. 2022)を参考にした。後者ではテキストデータのセンチメント分析の先行研究等も紹介されている。
⁶ 内閣府（2018）「消費行動分析の新たな視点ビッグデータ・ＡＩを活用した消費分析」『平成30年度年次経済財政報告』第1章第3節2、およびそこでの分析を解説した小寺信也、藤田隼平、井上祐介、新田尭之（2018）「POS・テキストデータを用いた消費分析 ―機械学習を活用して―」経済財政分析ディスカッション・ペーパー・シリーズを参考にした。
⁷ 真鍋陽俊、岡照晃、海川祥毅、髙岡一馬、内田佳孝、浅原正幸（2019）「複数粒度の分割結果に基づく日本語単語分散表現」言語処理学会第25回年次大会を参考。GitHubから入手した。
⁸ 追加学習などは実施していない。形態素解析器のSudachiで利用した辞書は「20200722-core」であり、最近の単語については適切に（最近の使い方に則した）トークン化がされていない可能性がある点には留意が必要。
⁹ 青嶋智久、中川慧（2019）「日本語BERTモデルを用いた経済テキストデータのセンチメント分析」人工知能学会全国大会論文集
¹⁰ 西良浩、菅愛子、高橋大志（2020）「ニュースおよび高頻度データを用いたディープラーニングによる株式変動の分析―BERT によるニュース評価―」経営課題にAIを!ビジネスインフォマティクス研究会 (第14回)
¹¹ 事前学習済みモデルは東京大学和泉研究室が公開しているizumi-lab/bert-base-japanese-fin-additionalを用い、トークナイザには当該モデルのベースとなっている東北大学が公開しているcl-tohoku/bert-base-japaneseを用いた。
¹² 一方、文章の取捨選択は行っておらず、参考文献の紹介など本文と関係のない情報も含まれている。

日付	タイトル	執筆者	媒体
2025/10/15	ＩＭＦ世界経済見通し－世界成長率見通しは3.2％まで上方修正	高山武士	経済・金融フラッシュ
2025/10/15	英国雇用関連統計（25年9月）－週平均賃金は前年比5.0％まで再び上昇	高山武士	経済・金融フラッシュ
2025/10/14	ロシアの物価状況（25年9月）－低下が続くが、足もとインフレ圧力の強まりも	高山武士	経済・金融フラッシュ
2025/10/03	ユーロ圏失業率（2025年8月）－失業率は6.3％で低水準だがやや悪化	高山武士	経済・金融フラッシュ

日付

タイトル

執筆者

媒体

2025/10/15

ＩＭＦ世界経済見通し－世界成長率見通しは3.2％まで上方修正

高山武士

経済・金融フラッシュ

2025/10/15

英国雇用関連統計（25年9月）－週平均賃金は前年比5.0％まで再び上昇

高山武士

経済・金融フラッシュ