オートコンプリート機能の仕組み

スマホで検索するようになってから、オートコンプリート機能を利用するケースが増えましたよね? 文字入力の手間が省けるという点ではPCよりスマホの方が断然効率的ですから。今回はGoogleがThe Keywordでオートコンプリート機能について仕組みを説明してくれていますので、その内容を和訳してご紹介します。
ちなみにオートコンプリート機能とサジェスト機能の違いについてですが、私は「一般名称としてサジェスト機能と呼ばれるものを、Googleはオートコンプリート機能と読んでいる」と解釈しています。

オートコンプリート

ふわふわ

The Keywordの内容

オートコンプリート機能は、単純に色々な人の検索履歴から最もメジャーなものを提示するだけでなく、語句の意味や傾向、地域や流行を加味して予測クエリを提示します。また、あまりにも長文なクエリの場合は一部の単語から紐付けて予測することもあります。一方で、予測クエリに表示しないものもあり、それはポリシー違反だけでなく、人名に関しても特に慎重に取り扱っているようです。

Googleオートコンプリート機能の生成方法

皆様は知りたいことは何なのかを頭に思い浮かべながらGoogle検索すると思います。入力を始めるとすぐに検索バーに予測された言葉が表示され、入力している内容を補完するのに便利です。この時間短縮のための予測機能は、以前にこの「検索の仕組み」シリーズで取り上げたオートコンプリートと呼ばれる機能によるものです。
この記事では、オートコンプリートの予測が実際の検索に基づいて自動的に生成される仕組みと、この機能を使用することで、すでに考えていたクエリの入力を補完することが出来る道理を紐解いていきます。また、すべての予測が役に立つ訳ではない理由と、その場合の対処法についても説明します。

予測は何を根拠にしているのか

オートコンプリート機能は、Googleで過去実際に行われた検索を反映しています。どのような予測表示をするかについて、Googleのシステムではまず誰かが検索ボックスに入力し始めたものと一致する一般的なクエリや、最近検索されている傾向がある(トレンドの)クエリを調べることから始めます。例えば、”best star trek… “と入力した場合、”best star trek series “や “best star trek episodes”のように、一般的な補完語を探します。

これが最も基本的なレベルでの予測の仕方です。しかし、予測機能にはもっと多くのことが関わっています。Googleは、最も一般的な予測をただ横串に表示するだけではありません。検索者の言語やどこから検索しているかなども考慮しています。
以下では、米国カリフォルニア州とカナダのオンタリオ州で「運転試験」と検索した場合の予測を見ることが出来ます。関連する場所の名前や、アメリカの「センター」のスペルを使用するのではなく、カナダ人のために「センター」のスペルが普段使われている表記(centre)になっていることが分かります。

長いクエリに対してもより適切な予測クエリを提示するために、システムは検索全体を予測するのではなく、検索の一部から予測するように自動的に移行することがあります。例えば、ある特定のモノの「前に位置するものの名前(the name of the thing at the front…)」から始まるようなクエリはあまり見受けられません。しかし、“船(ship)の前の部分”や“舟(boat)の前の部分”、“車の前の部分”などのクエリは多く見られます。ですので、その特性を活かしてユーザーが打ち込んでいるクエリの完成形を目指し、これらの予測クエリを提示しようとするのです。

また、予測を表示する際には情報の鮮度も考慮しています。あるトピックへの関心が高まっていることを自動システムが検知した場合、それはGoogleが把握している予測の中で最もメジャーな予測クエリでなくても、トレンドを踏まえた予測クエリを優先して表示することがあります。例えば、バスケットボールのチームに関する検索では、個別の試合よりも一般的な意味合いで情報を検索されることが多いはずです。しかし、そのチームがライバルとの大勝負に勝った直後に検索している人にとっては、一般的な情報の検索よりもタイムリーな試合関連の予測クエリの方が役に立つかもしれません。
また、予測クエリに関しては当然、検索している内容に応じて異なります。人、場所、物に関しては、同じカテゴリでもユーザーが持つ興味がそれぞれ全く違います。例えば、「ニューヨーク旅行」と検索すると、「クリスマスに行くニューヨーク旅行」という予測クエリが表示されるかもしれません。一方で「サンフランシスコ旅行」と検索すると、「サンフランシスコとヨセミテへの旅行」という予測クエリが表示されるかもしれません。2つのトピックが類似しているように見えたり、類似したカテゴリに分類されている場合でも、比較すると必ずしも同じように予測クエリが表示されるとは限りません。 予測クエリには、特定のトピックに固有で関連性のあるクエリが反映される仕組みになっています。
結局のところ、オートコンプリート機能は複雑な要素が絡み合う(時間短縮)機能であり、特定のトピックで最も一般的なクエリを単純に表示するだけではないことをご理解頂けるでしょう。ジャーナリストやその他の人が検索ワードの人気度を調査するGoogle Trendsとは特性が異なり、またそれらを比較すべきではないのもこういった要素があるためです。

見ることがない予測クエリ

オートコンプリートは、これまでの説明の通り、打ち込もうとしていたクエリをより早く完了させるために有効な機能です。しかし他の様々な機能と同様に、オートコンプリートは完璧ではありません。検索ユーザーにとって想定外の予測クエリや衝撃的な予測クエリを提示することもあります。また検索ユーザーが予測クエリを、事実であったり誰かの実際の意見であったり、と謝って解釈してしまう可能性もあります。また、予測クエリによっては、信頼できるコンテンツページを検索結果に表示しにくいケースが多いことも理解しています。
このような潜在的な問題には、2つの方法で対処しています。第1に、役に立たない可能性のある予測クエリやポリシー違反の予測クエリが表示されないようシステム設計しています。第2に、自動システムがポリシーに違反する予測クエリを検出できなかった場合においても、ポリシーに従って予測クエリを排除する専用チーム要員を配置しています。
Googleのシステムは、暴力的、露骨な性的表現、憎悪的、誹謗中傷、その他危険な単語や文章を認識するように設計されています。そのようなコンテンツが特定の予測クエリに含まれている可能性があると検知すると、システムが表示しないようにします。
もちろん、一般ユーザーはそれらに抵触するような言葉を使って特定のトピックを検索することが出来ますし、それを妨げるものは何もありません。ただ、Googleは検索者が想定していなかった予測クエリを提示することによって、意図せずに検索者を傷つけたり、驚かせたりしたくないのです。
また、Googleでは自動システムを使用することで、予測クエリが信頼できる内容をきちんと返しているのかどうかを検証することができます。たとえば、大きなニュースイベントが発生した後には、未確認の噂や情報が流布する可能性がありますが、これらはオートコンプリートが容認して表示している訳ではありません。このような場合、Googleのシステムでは、検索対象となる特定のトピックについて、信頼できるコンテンツが存在する可能性が高いか判断します。その結果、信頼できるコンテンツのある可能性が低いと判断した場合、システムは自動的に予測クエリが表示されないようにすることがあります。しかしながら、もちろん、予測クエリ無しでも誰だって検索入力することは出来るため、そのような検索は止められるものではありません。
Googleの自動システムは通常、非常に良好に機能していますが、すべてをキャッチできるわけではありません。そのために、オートコンプリートに関するポリシーを用意しており、どなたでも確認できるように公開しています。このシステムはポリシーに違反する予測クエリが提示されないようにすることを目的としています。しかし、ポリシー違反の予測クエリがシステムをすり抜けてGoogleに知らされた場合(公開報告オプションなど)、Googleの執行チームは、適切な方法で予測の見直しと削除に取り組んでいます。実際に問題となっている特定の予測クエリを削除し、その提示パターンのマッチング状況やその他方法を駆使して、正しく関連した予測クエリを導き出すよう調整します。
こうした取り組みの一例として、2016年に開始されたオートコンプリートの人名に関するポリシーを見てみましょう。このポリシーは、個人の名前に関連した攻撃的、有害、または不適切な予測クエリが表示されないよう設計されており、検索者が予測クエリだけで偏見を持つことがないようにしています。 Googleは、このような予測クエリが個人名に表示されないようにシステム設計しています。とはいっても、万が一違反が確認できた場合は、Googleのポリシーに従って削除します。

欲しいものをいつでも検索可能

以上のように予測クエリが表示されない場合がある理由を説明しましたが、予測クエリにおけるポリシーは検索結果に適用されるものではないことも覚えておいてください。時々、特定のクエリに対する予測クエリによって、検索者が検索結果に行くのを防ごうとしているのではないかと考える人がいます。しかし、そんなことはありません。オートコンプリート機能のポリシーは予測クエリにのみ適用されるわけで、検索結果には連動しません。
Googleの保護システムが裏目に出て、有用な予測クエリが提示されない場合があることだって理解しています。実際、Googleシステムは人名に関して特に慎重な姿勢をとっており、ポリシー違反していなくても予測クエリを表示しないようにしている可能性だってあります。しかし、それでもGoogleはこの慎重な姿勢が最善策であると考えています。たとえ予測クエリが表示されなかったとしても、検索者が自分でクエリを入力すれば済むだけですから。

以上となりますが、ノートPCでの入力時でも、スマホキーボードのスワイプ時でも、入力しているクエリをより早く完了させるための予測クエリの生成方法についてご理解いただけたのであれば幸甚です。

引用)The Keywordより和訳

ふわふわ

アルゴリズムのコンボ

驚いたのは、Googleのオートコンプリート機能における予測クエリの中には、予測クエリに関するコンテンツや予測クエリ自体が正確な情報かどうかを判断して提示しているということです。それは高品質へのGoogleの取り組みと同じで、ハミングバードを形成する要素が関わっているようです。当然、RankBrainやBERT、外部リンクが関わっているのですね。

凄いですね。Googleのアルゴリズムが複雑に絡み合って、コンボとなり、結果として特定の機能を演出することになっているんですね。確かにスマホの普及で加速度的にオートコンプリートの利用は頻度が増していると思いますので、これからも重要な機能になるのでしょうね。


関連記事

Search On 2020の内容

米国現地時間10月15日にGoogleがオンライン開催したSearch On 2020。このフォローアップ記事がThe Keywordに掲載されていますので、和訳しながらご紹介したいと思います。結構長いので、挫けず頑張ります...。 The Keywordより ブログ掲載されている内容をまずは和訳し ...(続きを読む)

文節(passages)単位でマッチング

Googleは検索クエリに対するマッチングとして、ただのページ単位での概念でなく、コンテンツの一節のみでも最適な回答になっていると判断した場合、検索上位に影響してくる旨を発表しました。Search Onのイベント内で発表したようですが、Twitterでもフォローアップしていましたので、ご紹介したいと ...(続きを読む)

今後のコンテンツと目次

Googleのニューラルマッチングシステムの技術により、検索クエリを通して検索者を理解する概念が高まっています。検索者を理解する概念というのは、つまり「どんな人によるニーズか」という概念です。そして、その概念が、(今度はRankBrainによって概念化された)コンテンツとどうマッチングして検索ランキ ...(続きを読む)

鼻歌検索

いよいよGoogle検索を通して鼻歌で曲を探すことができるようになりました。(Googleアシスタント等に入力される)音声検索で音の連鎖でマッチングした結果を表示するようです。米国現地時間10月15日にGoogleが発表しました。 Googleの発表内容 The Keywordで発表されたGoogl ...(続きを読む)

コメントを書く

コメントは承認から反映までしばらく時間がかかる場合がございます。メールアドレスが公開されることはございません。