6|一般検索エンジンへのアクセス
一般検索エンジンを利用するための方法はいくつかある。これらは1)ブラウザ(Chrome、Firefox、safariなど)に統合されている検索枠、2)Android端末のホーム画面上の検索枠、3)検索アプリ(Google)、4)端末にデフォルトで設定されているブックマーク、5)デフォルトに代替するブラウザの検索枠、6)直接ウェブ検索(ブラウザのURLが表示される枠への直接入力)がある。
(1) デフォルトに設定される検索枠の優位性
一般検索エンジンへの最も効果的なアクセスとしては、デフォルトの検索枠として配置されることである。Appleにおいてはsafariブラウザに統合された検索枠(上記1))である。Android端末では端末のホーム画面上の検索枠(上記2))およびChromeの検索枠(上記1))である。以上の検索枠、及びFirefoxもデフォルトの一般検索エンジンはGoogleである。WindowsだけはEdgeがデフォルトブラウザであり、Bingがデフォルトの一般検索エンジンとなる。
この分野のコンセンサスは「デフォルトは消費者の意思決定に強力な影響を与える」というもので、個人は習慣でアプリを選択する。多くのユーザーはデフォルト以外の一般検索エンジンがあることも変更できることも知らない。さらにデフォルトの一般検索エンジンを変更することはどのモバイル端末でも操作が難しい。
このことはGoogleも理解しており、2017年にはクエリの60%はデフォルトに設定された一般検索エンジンであるGoogle検索枠から入力された。
(2) その他の検索枠
デフォルトに設定されていない検索枠からの利用は少ない。Googleはユーザーがダウンロードした一般検索エンジンを利用する方法は効果的ではないことを認識している。Firefoxではお気に入りページに、Google、Bing、Yahooにアクセスするためのアイコンが用意されている。しかし、この方法を利用するユーザーはほとんどいない。それはFirefoxの「お気に入り」を見つける必要があり、そのために「余分なクリック」が必要になるからである。
デフォルトが頻繁に変更されるのは、デスクトップ端末であるWindowsである。WindowsでのGoogleの検索シェアは80%である。これはChromeがブラウザとして人気があるというわけではない。Chrome開発時にすでにWindowsの検索シェアの80%はGoogleが占めていた。
7|規模の重要性
(1) 品質の向上 クエリ量が多いということはそれだけユーザーデータ、つまり規模があるということである。モバイルではGoogleは、ライバルの19倍ものクエリを受信している。ユーザーデータにはさまざまなものが含まれ、クリックした検索結果、ユーザーが検索結果画面に戻るかどうか、速度、検索結果画面での閲覧時間などがある。このようなデータから検索結果の関連性やユーザーが訪問したウェブページの品質を知ることができる。このことは検索の質の向上に役立つ。たとえば、Googleではロングテールクエリ(めったに検索されない珍しいクエリ)も検索される。ユニークなクエリの93%はGoogleで検索されている。
情報の新鮮さも検索の重要な要素であり、Googleは常時、再クロールを行うが、たとえばニューヨークタイムズのような人気サイトはより頻繁にクロールされる。
また効果的なインデックス化は、検索品質に大きく影響するが、これはクエリデータによって改善が期待できる。このためクエリデータの規模は重要である。
そして、ユーザーから不完全なクエリが入力された場合であっても、的確な検索結果を表示するために、Googleはユーザーデータに頼っている。
(2) 検索結果のランキング作成
そして、Googleは入力されたクエリに関連する可能性のある検索結果をスコアリングし、検索結果ページに表示されるための技術を活用している。
一つ目はクエリベースの顕著な関連用語(Query-based Salient Terms、QBST)であり、対になる用語(たとえばホワイトハウスの「住所」と「ホワイトハウス」という単語のセット)を特定・暗記する技術である。二つ目はNavboostという技術で、ユーザーの検索結果ページにおけるクリックの結果を記億とすることで、対になる用語を特定・記憶するものである。Navboostは13カ月のユーザーデータでトレーニングされている。
そのほかさまざまな技術が存在するが、なかでもMUMと呼ばれる大規模言語モデル(Large Language Model(LLM)
2)がある。MUMは言語の構造を理解し、ある種の推論能力を獲得する」ために訓練されたモデルである。
これらの技術は互いに補完的に運用され、検索の品質向上に資することとなる。
2 「大規模言語モデル(LLM:Large language Models)とは、大量のデータとディープラーニング(深層学習)技術によって構築された言語モデルです。言語モデルは文章や単語の出現確率を用いてモデル化したものであり、文章作成などの自然言語処理で用いられています。大規模言語モデルと従来の言語モデルでは、「データ量」「計算量」「パラメータ量」が大きく異なります」(日立ソリューションズ・クリエイトHPより引用)。なお、LLMは通常AI技術として紹介されることが多いが、本判決ではAIとは別に取り扱われている。