Googleが良い感じに、検索におけるAIアルゴリズムについてまとめてくれています。「Google検索のAIってどんなのがあるの?」という疑問を持っている人にはちょうど良い記事ですね。私も今まで五月雨式には紹介してきていますが、今回The KeywordでGoogleが紹介している本記事がとても良かったので、和訳してご紹介します。既に知っている人には良いおさらい記事になるのではないでしょうか。
Googleが誇る主要AIアルゴリズム
Google検索において機能している4つのAI(RankBrain、ニューラルマッチング、BERT、MUM)についてその概念について紹介してくれています。MUMは直接的に検索ランキングに影響するものではないものの、革新的なAIとして今後に注目です。なお、本ブログでも以下のように各AIについては触れていますので、併せてご参照ください。
- RankBrainについて:「RankBrainについて」「RankBrainとニューラルマッチング」
- ニューラルマッチングについて:「RankBrainとニューラルマッチング」「進化する対話型検索!?」
- BERTについて:「BERTの導入」「BERTが日本上陸」
- MUMについて:「MUM凄いぞって話」「検索システムへのAI導入状況」「MUMにできること」「これから気になる2つのアルゴリズム」
以下、Googleが米国現地時間2月3日にThe Keywordで公開した記事です。和訳してご紹介します。
AIが優れた検索結果を実現する方法
自分が検索している内容をGoogleがどう理解しているのか、疑問に思ったことはありませんか? 有益な検索結果を提供するためには多くの要素が必要ですが、その中でも言語を理解することは最も重要な技術の1つです。AIと機械学習の進歩により、Googleの検索システムは人間の言葉をこれまで以上に理解できるようになりました。今回の記事は、それがどのように検索結果に反映されるのか、その裏側をご紹介します。
まず、今までの検索システムを辿ってみましょう:高度なAIが登場する前の初期型検索システムでは、単に検索語句と一致する単語を探しました。例えば「pizza」と検索した際、その単語を含むページが無い場合、近くのピザ屋を見つけるには正しい言葉で一致するまで検索し直さなければならなかったでしょう。その後、よくあるスペルミスや隣接するキーのタイプミスの可能性など、ある種のパターンを見つけるアルゴリズムを開発しました。現在では高度な機械学習により、単語が正しくないと判断した場合は直観的に認識し、修正の可能性を示唆することができます。
このようにAIによって検索システムが改良されることは、探しているものを理解する能力が常に向上している、ということを意味しています。世界中で人々の好奇心は常に進化しているため、検索システムも進化し続けることが非常に重要なのです。実際、Googleが毎日目にする検索の15%は、まったく新しい検索キーワードです。AIは、私たちの想像の域をはるかに上回らなければならず、役立つ検索結果を示すために常に大きな役割を果たしています。
Googleのシステム連携
Googleは、初期のスペルチェックからそうであったように、適切な検索結果を提供するため長年にわたって何百ものアルゴリズムを開発してきました。Googleが新しいAIシステムを開発する時、従来のアルゴリズムやシステムをそのまま棚上げすることはありません。実際、検索は何百ものアルゴリズムと機械学習モデルで実行されており、新旧のシステムがうまく連携することで、検索を向上させることができるのです。それぞれのアルゴリズムやモデルは専門的な役割を持ち、異なるタイミングや組み合わせで作動することで、最も役立つ検索結果の提供ができます。また、より高度なシステムの中には、他のどのシステムよりも重要な役割を果たすものだってあります。ここでは、現在の検索エンジンで稼働している主要なAIシステムと、その機能について詳しく見ていきましょう。
RankBrain – よりスマートなランキングシステム
2015年にRankBrainを発表した時、それはGoogle検索に展開された最初のディープラーニングシステムでした。Googleにとって最初のAIシステムであるというだけでなく、言葉が概念的にどのように形成されているかを理解する一助になっていたため、当時は画期的なシステムでした。人間は本能的に言葉の概念を理解しますが、コンピュータにとって言葉の概念を理解するのは非常に複雑な業務です。RankBrainは、検索に含まれる単語が現実の概念とどのように関連しているかをより広範囲に理解することで、これまで成し得なかった情報の発見にも繋がりました。例えば「食物連鎖の最上位に位置する“消費者(consumer)”の名称は何か」と検索した場合、Googleのシステムでは、様々なページを検知することでそれらを形成する単語要素を理解し、食物連鎖という概念においては、“消費者”が人間とは限らず、動物全体まで及んで考えなければならないと予測し学習するのです。RankBrainは、これらの単語を理解し関連する概念と照合させることで、ユーザーが探している“消費者”とは、一般的に“頂点捕食者”と呼ばれているものであると理解するのです。
このような理解のおかげで、RankBrain(という名前)が示すように検索結果の上位をランク付けする、つまり最適な順序を決定するために使用されているのです。RankBrainは、Googleが最初に開発したディープラーニングモデルですが、現在も検索を支える主要なAIシステムの1つとなっています。
ニューラルマッチング – 高度な検索エンジン
ニューラルネットワークは、現在の数多くの最新AIシステムを支えているAIです。しかし、Google検索にニューラルマッチングが導入される2018年以前までは、クエリとページの関連性をより理解する(ためのニューラルマッチングのような)ものは存在しませんでした。ニューラルマッチングは、クエリやページにおける、より抽象的な概念の表現を理解し、それらを互いにマッチングさせる上で非常に役立ちます。キーワードだけを直線的に捉えるのではなく、クエリ背景やあらゆるページを検証することで、そこに含まれる概念をより深く理解することができるようになっています。例えば、「緑をどうマネジメントするかのインサイト(insights how to manage a green)」という検索をしたとしましょう。あなたが、もし友人からこんな質問をされたら、おそらく回答に困ってしまうのではないでしょうか。しかし、ニューラルマッチングを使えば、その意味を理解することができるのです。単語に含まれる、マネジメント、リーダーシップ、パーソナリティなどの幅広い概念を分析することで、ニューラルマッチングシステムは、この検索意図が人気のあるカラーパーソナリティガイドに基づいて色使いのヒントを探している、と解読することができるのです。
クエリやページに含まれる幅広い概念をシステムが理解することで、より簡単に、関連する情報とマッチさせることができるようになります。このレベルの理解をすることは、逆に言えばクエリに関連する可能性のあるコンテンツを優先的にインデックスするということにも繋がります。このようにニューラルマッチングは、膨大で絶えず変化する情報の流れから関連コンテンツを検索する上で、非常に重要な役割を担っているのです。
BERT – 意味と文脈を理解するためのモデル
2019年に発表されたBERTは、自然言語理解における大きな一歩となり、言葉の組み合わせにより変化する意味や意図をどのように表現しているかを理解しようとしています。BERTは、単に個々の単語に一致するコンテンツを検索するのではなく、単語の組み合わせによる複雑な思考がどう表現されているかを理解します。BERTは、連続する単語とその関連性を理解し、どんなに些細な単語だからと言っても重要性を孕む場合、それを取り除くことがないようにします。例えば、「薬局で薬をもらうことができる?(can you get medicine for someone pharmacy)」と検索すると、BERTは、検索者が誰かのために薬を入手できるかどうかを調べようとしていることを理解します。BERT導入以前は、この短い前置詞(「のために=for」)を考慮せず、処方箋の記入方法に関する結果を共有することがほとんどでした。BERTのおかげで、Googleは小さな言葉にも大きな意味があることを理解することができました。
現在、BERTはほとんどすべての英語クエリで重要な役割を果たしています。これは、GoogleのBERTシステムが、関連する結果を提供する上で最も重要な2つの業務――すなわちランキングする業務と検索する上でのデータを取得する業務という点で優れているからです。BERTは、その複雑な言語理解に基づいて、関連するコンテンツや文書を非常に迅速にランキングすることができます。また、BERTのトレーニングによって過去の検索システムを改善し、ランキングのために関連するコンテンツや文書などのデータ取得をより有用なものへと変化させています。BERTは検索において重要な役割を担っていますが、それは決してBERT単独で動作するものではありません。Googleのあらゆるシステムと同様に、BERTは高品質の検索結果を共有するために協力し合うシステム全体の一部なのです。
MUM – 言語から情報理解への移行
2021年5月、Googleは検索分野における最新のAI開発重要地点となるMultitask Unified Model(MUM)を導入しました。BERTの1,000倍の能力を持つMUMは、言語を理解するだけでなく生成する能力をも備えています。MUMは、75の言語とさまざまなタスクを同時に学習することで、情報と世界の知識をより包括的に理解することができます。また、MUMは多様化形式であり、将来的にはテキストや画像など、複数の様式で情報を理解するようになるでしょう。
MUMの可能性を活用するのはまだ初期段階ですが、すでにCOVID-19ワクチン情報の検索を改善するために利用し、今後数ヶ月のうちにGoogle Lensでテキストと画像の両方を組み合わせた、より直感的な検索方法を提供予定です。これらは非常に特殊なアプリケーションになるため、今のところ、RankBrain、ニューラルマッチング、BERTシステムのように、検索結果のランキングや品質向上にMUMが利用される予定はありません。
さらにMUMを利用した体験をGoogle検索に導入することで、高度な言語理解から、世界中の情報のより微妙なニュアンスも含めた理解へ移行し始めるでしょう。そしてGoogle検索すべての改良と同様に、MUMは、AI責任における良識ある適用に細心の注意を払いながら、厳格な評価プロセスを経ることになります。そして、導入された暁には検索を便利にする連携システムの一端を担うことになるでしょう。
引用)The Keywordより和訳
ビッグデータを処理・解析するにはAI
検索クエリに内包される検索心理は十人十色です。情報欲求の深度も異なるかと思います。それらを全て解析するために、世の中にあるWebサイトコンテンツから検索心理に内包される要素を導き出し、検索ジャーニー(検索を何度かする人の傾向とその語句の流れ)を理解し、統計的に見てより一般的なニーズを解消する検索結果を表示するには、もうAI使うしかないですよね(笑)。
私の解釈(持論)として、今のAIの最も良いところは“インプット(とアウトプット)を自動化する”ことかと考えています。情報を詰め込むことで最適解を返すメカニズムは分かりますが、その詰め込む情報を自動的にインプットできるのはAIならでは、だと思います。ましてや世界中で検索される15%は常に新語であるなら尚更ですよね。
これからもAIは進化するでしょうし、そのAIを攻略する(悪い意味でそのメカニズムを利用するような)SEOは既に限界になってきているかと思います。ですので、コーディングの最適性を追求するのは当然のことながら、これからは“そもそもコンテンツとしてあるべき姿”をしっかりと考えて、検索者のタメになるコンテンツの編集戦略が重要になるでしょう。この編集戦略って、(誰でも出来そうですけど、主観的になってしまうと)意外と分からなくなってしまう人が多いので、都度誰かに相談しながら戦略立てるようにしてください。