GoogleがThe Keywordで自分達の検索システムの検証について記事化しています。記事では検索品質評価ガイドラインに合わせて検索品質評価者がどう分析しているのか、またGoogle自身でもどうやってテストしているのか、等を説明してくれていますので和訳してご紹介したいと思います。
信頼性があるか否か、についてしつこい!?
特に新しい発見に繋がることが書かれているわけではありませんが、記事内では、Googleの検索結果がちゃんとしたWebページを紹介しているのかを人間の目でも判断している、と書かれています。そして「信頼性の高いWebページか」についてしつこく書かれています。一方で、品質評価者が評価した内容はそのまま検索順位に影響するわけではなく、検索順位に影響する検索アルゴリズムの改善に役立てているに過ぎない、と言っています。
以下が全文です。
世界中の検索者の洞察から得るGoogle検索の改善方法
皆様が行うGoogleでの検索は、1日で10億回もの検索が行われているうちの1つに過ぎません。Googleの検索システムは0.5秒未満に1回の割合で、数千億ものWebページの中から最も関連性があり、且つ便利な検索結果を提供するように情報を提供しています。
Web上の情報も世間の情報ニーズも常時変化しているため、検索アルゴリズムもそれに合わせて多くの改善を行なっています。実際、1年で約千単位の改善が実施されています。そして、新しい機能や言語理解技術を検索に導入する等して、検索結果をより便利にするために取り組み続けています。
これらの改善は、世界中の人々が何をGoogleで検索しようと必要な情報が見つかるように設計された評価プロセスを元に実施されています。ここでは世界中の皆様から得た、検索をより良くするための洞察やフィードバックを元にGoogleが行なっている取り組みをご紹介します。
研究チームの取り組み
検索システムに対して加える変更は、検索者がより簡単に便利な情報を見つけることを目的としていますが、興味や言語、住んでいる地域次第で欲している情報のニーズは検索者によって異なります。情報に偏りがなく、手に入れやすく、そして便利にすることがGoogleのミッションであり、このゴールを達成すべく全ての検索ユーザーのために邁進しています。
そのために、検索システムをより便利にすべく、世界中の人々と話すことを仕事としている研究チームがあります。Googleは複数のプロジェクトに対するフィードバックを受けられるようたくさんの人々を招待したり、地域ごとで異なる人々のオンライン情報への理解のしかたを把握するようなフィールド研究を行なったりしています。
例えば、長年の研究によって新興国市場で情報にオンラインアクセスする際は、人々が直面する技術的な制限があったり固有のニーズがあったりしていることを知りました。そのため、私たちは「Google Go」というバッテリー不足のモバイルや不安定な接続環境でも機能する軽量の検索アプリを開発しました。「Google Go」では、Webページを大音量で読み上げてくれる独自機能も搭載されており、それによって新しい言語を学んでいる人や長い文章を読むのが苦手な人にとっては大変便利になりました。こういった機能は、実際に利用する人々の声や要望がなければ生まれることはなかったでしょう。
検索品質評価者
評価プロセスで重要なこととして、実際に日々検索しているユーザーから、Googleの検索システムや改善内容がちゃんと機能しているのかフィードバックいただくことです。しかし、“ちゃんと機能”とはいったいどういうことなのか。Googleは正式に評価者ガイドラインという、優れたコンテンツとはどうあるべきと検索システムが捉えているのか、詳細まで説明したガイドラインを公開しています。このガイドラインは160ページを超えるボリュームですが、もし要約して一言で伝えるなら、「検索システムは、可能な限り最も信頼できる情報元からクエリに関連した結果を提供するように設計している」と言えるでしょう。
Googleでは、Webそのものから得たシグナルを使うシステム――例えば、検索した単語がページのどこに使われているのか、Web上でどのようなページ間でリンクされているのか等を使い、クエリに関連した情報や信頼に値する情報であることを理解するようにしています。しかし、最終的なその関連性や信頼性については人間の判断も必要になるため、Googleの検索システムが実際に正しく機能しているかどうか、検索者からフィードバックを集める必要があります。
そのために、世界で10,000名以上もの「検索品質評価者」というグループを設置しています。検索品質評価者は実際の検索結果に対する体験度合いを評価します。彼らはガイドラインに基づき、自分たちの居る場所や、ユーザーニーズを踏まえて最善の検索結果となっているかどうかの評価を行ないます。この検索品質評価者は、事前にガイドラインについて学習してもらっており、テストにも合格する必要があります。
評価がどのように機能しているか
実際に検索品質評価者がどうやって業務遂行しているのかをご説明します。まず、調査対象となる検索クエリのサンプルを抽出します(数百程度)。検索品質評価者の中から該当する検索クエリ対象者を選び、その検索結果画面を2つのタイプに分けて分析してもらいます。1つ目の検索結果は従来のGoogle検索結果で、もう1つの検索結果はGoogleが考える改善後の検索結果です。
検索品質評価者は検索結果に一覧表示されている全てのWebページを確認し、検索クエリに対するガイドラインに沿ってそのWebページが適当か評価していきます。検索品質評価者は、それらWebページが該当クエリを検索する意図として欲しい情報だったのかどうか、またその検索クエリに対する情報元として権威性や信頼性が高いものなのか、等を評価しています。“E-A-T”と呼んでいる専門性、権威性、信頼性などについても評価すべく、検索品質評価者には情報元の評判についても調査するよう指示しています。
例を挙げてみましょう。「キャロットケーキ レシピ」と検索したことを想像してください。検索結果画面には、レシピサイトや食べ物関連のWebマガジン、どこかの食品メーカー、はたまたブログ記事などが表示されるかもしれません。Webページが情報ニーズに見合っているかどうかを分析するには、評価品質評価者は料理行程がどれだけ分かりやすく紹介されているか、レシピは写真やイラスト等を使って分かりやすく説明されているか、またWebページ上に買い物リストが作れたり、2人分で計算できるようなレシピ用計算機などの便利機能があるか等、様々な情報を加味して評価するでしょう。
記事作成者が相応の専門知識を持っているか確認すべく、評価者は著者の調理資格保有状況や、他の食品関連サイトからの参照具合、他にもレシピサイトで高評価を得ている高品質コンテンツの作成実績等、周辺情報をオンライン上で調査します。基本的に以下の自問自答をすべく検索品質評価者は分析しているのです――「このページは信頼に値するか? 評判の良い著者やWebサイトからの情報か?」
検索品質評価者による評価は検索順位に直接的に利用されない
検索品質評価者がWebサイトページの分析を一通り済ませたら、それぞれのWebページの品質評価を下します。ここで大事な要素をお伝えしますと、この品質評価はGoogle検索順位に直接影響させるものではありませんのでくれぐれもご注意ください。誰であっても、分析したWebサイトページに対して「権威性がある」とか「信頼性がある」などと個人決定することはありません。とりわけ、Webページの評価は、検索順位を決定するために行なっている品質評価ではありません。実際そんなことをしても、取り入れるのは現実的に不可能な作業ですし、Googleが検索順位に使用するには非常に稚拙なシグナルになるでしょう。何千億ものWebページが常に変化している中で、人間の目や手が全Webページを定期的に評価なんてできるはずがありません。
そういう使い方ではなく、品質評価は改善経過を断片的に集計するものであり、国内外の検索ユーザーが情報をどのように評価しているかを知ることであり、優れたコンテンツを提供するためにGoogleの検索システムがどの程度機能しているかを検証するのに役立てているのです。
昨年だけでも、検索品質評価者と協力し383,605件の検索品質テストと62,937件の同様の実験を繰り返し、その結果を活かして3,600以上もの検索アルゴリズム改善に役立てました。
自社製品実験
Googleが改善を検証するための材料は、調査や検索品質評価者からのフィードバックだけではありません。新機能が実際に検索で利用できるようになった際は、どう機能しているのかを確認しておかなければなりません。このような洞察を得るために、Googleはライブ実験を通じてユーザーの新機能利用具合をテストしています。
これは、現バージョンのGoogle検索を使用しているユーザーの中から、無作為に選ばれたごく一部の検索ユーザーが実際に利用できることから“ライブ”実験と呼んでいます。変更内容をテストすべく一部のクエリに対して新機能を搭載し、その影響度合いを測定するために様々な数値を調査します。
ユーザーは新機能をクリックしたり、タップしたりしたのか。もしくは大半がスクロールして通り過ぎてしまったか。Webページの読み込みが遅くなってしまったか、などなど。これらの洞察は、新機能や変更の有用性や活用性を理解するのに大変役立ちます。
2019年には、検索の新機能や改善点をテストするために、17,000以上のライブ実験を実施しました。その数と実際に改善した数を比較すると(前述した3,600以上の改善数)、最も優れて有用な改善点のみがGoogle検索に反映されていることがわかりますよね。
常時改善
Googleの検索結果は決して完璧ではありませんが、過去20年間を振り返ると、これらの調査・評価プロセスが非常に効果的であることが証明されています。この調査・評価を続けることによるGoogle検索システムの変更が、情報を求める世界中の検索ニーズに応え続けていることに繋がっているのです。
引用)The Keywordより和訳
要は、「Googleの検索アルゴリズムの改善が良い感じで機能しているか定期的に検索品質評価者によって検証されている」ということですね。そしてもし検索結果画面に不自然なWebページが上位表示されていたら「そういうWebページが上位表示されないようにするためには、どんなアルゴリズムをどんなふうに、どれだけ改善すれば適切か」という判断材料に評価結果を使っているということですね。
それにしても、その評価に関しては「どれだけ検索心理に適っているか」だけでなく「どれだけ信頼性が高いか」を繰り返しているあたり、本当にE-A-T要素は重要視されているんですね。そして、その重要視の中で実際に検索品質評価者に「他にどんな評判があるか」を確認させるあたり、リンクやサイテーション、レピュテーションを間接的に参考視していることも分かります。
クリック率は間接的に検索結果に影響している?
他にも自社商品実験の部分として、「新しい見せ方をクリック・タップしたのか、もしくはスクロールして通過しただけか」等の洞察を云々と言っています。それは、Googleが自分達でも一部の現場検索ユーザーの動向をサンプリングしている、という話です。
・・・ん?
検索ユーザーの動向をサンプリング?
やっぱり検索結果のクリック率を見ていますね。見て参考にして改善に役立てているわけですね。直接的に検索結果に反映させるわけではなく、間接的に利用していることは分かります。
これは私の推察ですが、例えば「新しいアルゴリズムによる検索結果は比較サイトを多めに出してみた。その結果、比較サイト系の方がクリックされやすいことが分かった。じゃあ、今後は比較サイトが上位3枠くらいを占めるような多様性を持ったアルゴリズムに改善していこう」というメカニズムは充分に考えられます。
まとめ
今回の記事から私なりの解釈をまとめると以下の通りです。
- Webページには、適切に回答されているだけでなく、信頼性の高い著者であることも求められる。
- 信頼性の高さを評価するためにはリンクやレピュテーションまで調べている人(評価者)がいる。
- 検索品質を評価したところで、それは飽くまでもアルゴリズム更新のための材料に過ぎない。
- Google独自でも一部の検索ユーザーを任意抽出して動向をテストしている。
- 動向をテストしたところで、それは飽くまでもアルゴリズム更新のための材料に過ぎない。
逆に言えば、アルゴリズム更新の材料として、信頼性やリンク、レピュテーション、クリック率は使われているということですね。間接的である以上、サイト運用者は長期的に見ながらこれらを改善する策を講じていくことが好ましいですね。なんだかんだ言って1年はあっという間ですし、1年後にウハウハになるよう、少しずつ改善していきましょう。