• Google検索の漏洩情報【後編】

Google検索の漏洩情報【後編】

Google検索ランキングシステムのドキュメントが流出した件で、iPULLRANKで細かく解説してくれています。一部和訳しながら五月雨式に解説していますが、その前編に続き今回は後編です。前編でも触れましたが、今回の原文の著者は「Googleが悪い!」とか言っているわけではなく「ちょっと言ってたことと違くない?」というニュアンスが強そうです。そして同時にMozのRand Fishkin(長年のSEO実践者)氏が仮説付けて述べてきたことをGoogleが否定し、都市伝説的な扱いにし、世間の風当たりも強かったことに対して「皆謝ろう」的な言い方で擁護しているのも印象的でした(iPULLBANKのMike King氏は従来よりRand氏の述懐を支持してきたようです)。

「アルゴリズムの秘密:Google検索の内部エンジニアリング文書が流出」よりご紹介

前編に続き、iPULLBANKのMike King氏による記事ですに原文の意訳&私の解説、という順で紹介していきます。
 

Twiddlersとは何か?

Twiddlersに関する情報はオンラインの情報だけでは理解しにくく、今回のドキュメントで得た様々なBoostシステムの文脈から辿った解釈を基に説明しておこうと思います。
Twiddlersは、主にAscorerという検索システムの後に実行される再ランキングする属性のものです。掲載したい内容をユーザーに表示される直前に調整するWordPressでのフィルタ機能や動作と同じようなシステムです。Twiddlersは、ドキュメントの情報検索スコアを調整したり、ドキュメントのランキングを変更したりできます。私たちが知っている多くの実験や名称のある検索システムはこの方法で実装されています。Twiddlersは様々なGoogle検索システムにおいて非常に重要です。Twiddlersは表示サイトページのカテゴリを制限することもできます。つまり、検索結果に表示するサイトの種類を具体的に制限して検索結果の多様性を促進できます。例えば、特定のSERPで3つのブログ記事のみを上位表示させることもできます。これはつまり、サイトページ種別次第では、上位表示されなくなるわけです。
パンダアップデートのような検索システムがコアアルゴリズムの一部ではなかった頃は、おそらくPandaによる再ランキングで順位向上(Boost)や下落した関数がTwiddlersによって主要なスコアリング属性に組み込まれた形になっていたのではないでしょうか。これは、サーバー側とクライアント側のレンダリングの違いに似ていると思ってください。
おそらくBoostという接尾辞が付いた属性はいずれもTwiddlersの論理構造を通して動作しているかと思われます。以下はドキュメントに記載されているBoostの一部です:

  • NavBoost
  • QualityBoost
  • RealTimeBoost
  • WebImageBoost

命名規則を見ると、それらはすべて一目瞭然です。
私が目を通したTwiddlersに関する内部文書にもこれについて詳しく記載されていますが、この投稿でも、著者は私と同じ文書を見たようです。

引用)iPULLBANKの記事より一部抜粋&意訳

Twiddlersというシステムはコアアルゴリズムにプラスアルファの作用をもたらすもののようで、基礎的なランキングに加えてクリックや品質、情報鮮度、画像要素等を評価した結果を加味することで、良くも悪くも順位をブーストさせる働きがあるようです。私のイメージとしては、ランキングされた後に最終的なTwiddlersフィルタを通して検索結果が配信されるようなイメージです。WordPressに例えているので、きっとそんな感じだと思います。

 

著者情報を評価判断できる

ドキュメントにはE-E-A-Tについても多くのことが書かれていました。多くのSEO担当者は、専門性と権威性は抽象的で曖昧な評価になるため、それが実際の定量評価にはなり得ないと思っています。私も以前、Web上で著者マークアップをしても実際に全く影響していないことを豪語していました。ベクトル埋め込み(意味や関係性の数値化)について学ぶ前は、著者の権威性がWeb内で有効なシグナル化になるとは思っていませんでした。それにもかかわらず、GoogleはWebページに関連付けられた作成者をテキストとして明確に保存しています。また、ページ上のエンティティがページの作成者のことを指しているかどうかも判断しています。
こういった著者情報をWebページで紹介されているエンティティとベクトル埋め込みの相関図式として考察すれば、著者における評価判断が行われていることは明白でしょう。

引用)iPULLBANKの記事より一部抜粋&意訳

著者情報の権威性とは何ぞや、という話になりますが、実際に著者に関する情報や意味、リンク、出版物等を通して定量スコア化することはできるようです。そして、Googleは著者情報もしっかりと記録しているようです。さらにWebページと著者との関係性や緊密性も理解しているようです。それらの点を組み合わせれば、著者の権威性がスコア化されていると考えて間違いないでしょう、という話です。

 

順位下落に作用するもの

ドキュメントでは、アルゴリズムを通して順位下落する場合について説明されています。説明内容は限定的でしたが、ここで言及する価値はあります。パンダアップデート以外の順位下落要素は以下の通りです。

  • 発リンクの不一致 – リンクがリンク先のターゲットサイトと一致しない場合、そのリンクは減点され、順位評価が下がります。前にも述べたように、Googleはリンクの両側(発リンク側と被リンク側)の関連性を求めています。
  • SERPによる順位下落 – 検索結果画面から洞察された要因に基づいて順位下落を示すシグナル。クリックによって測定される可能性が高く、ページに対するユーザーの潜在的ストレスを示唆していると考えられます。
  • 案内方法による順位下落 – おそらくこれはナビゲーション方法が不充分で、ユーザー体験が悪いと思われるページに適用される順位下落です。
  • 完全一致ドメインによる順位下落 – 2012年後半、Matt Cutts氏は完全一致ドメインは価値を得られないと発表しました。むしろ順位下落を孕む可能性があります。
  • 製品レビューによる順位下落 – これについては具体的な情報はありませんが、順位下落対象としてリスト化されており、おそらく2023年の直近のレビューアップデートに関連しています。
  • 場所による順位下落 – “グローバル”や“スーパーグローバル”なページが順位下落される傾向があります。これは、GoogleがWebページと場所を関連付け、それに応じてランク付けしようとしていることを示唆しています。
  • ポルノ系の順位下落 – これは言うまでもありません。
  • その他のリンクによる順位下落 – 次のセクションで説明します。

これらすべての潜在的順位下落は戦略を策定する上で役立ちますが、はっきり言えば、結局のところは強力なユーザーエクスペリエンスを備えた優れたコンテンツを作成し、ブランドを構築することに尽きるでしょう。

引用)iPULLBANKの記事より一部抜粋&意訳

はい、ここが非常に重要です。読めば読むほど、テクニックよりもマーケティングが重要だということに気付きます。最後に記載されている“結局のところは強力なユーザーエクスペリエンスを備えた優れたコンテンツを作成し、ブランドを構築することに尽きる”ということが非常に重要で、世の中の大半のSEOerが(実感値が無いせいで)ここを見据えない傾向にあると私は思っています。私はとある取引サイトのトップページをリニューアルし、コンテンツを見直し、情報掲載順序を整え、まず対象者の行動意欲を優先し、その後派生するであろうと仮説付けたニーズ順に掲載しました。横道に逸れる情報はモーダルウィンドウ化し、情報をスマートにした結果、トップページ(をLPとした)からのCVRが125%になりました。これがSEOに寄与しないはずは無いと思っています。というか、これからのSEOerがやるべきことはこういうことなのではないでしょうか。

 

リンクは依然として非常に重要である

リンクはそれほど重要ではないという最近の巷での主張を反論する証拠はありません。繰り返しますが、これは情報がどうやって保存されるかというものではなく、評価属性自体として処理されている可能性が高いです。とはいえ、リンク相関を深く理解すべく、機能の抽出と設計には細心の注意が払われました。
 

インデックス分別はリンクの価値に影響を与える

ページがインデックスされている場所とその価値の相関性をなんとなく示す、sourceTypeと呼ばれる指標があります。簡単に言うと、Googleによるインデックスは分別化されており、最も重要で、定期的更新され、アクセスされるコンテンツはフラッシュメモリに保存されます。重要度の低いコンテンツはソリッドステートドライブに保存され、不定期に更新されるコンテンツは標準のハードドライブに保存されます。
つまり、階層が高ければ高いほど、そこからのリンク価値も高くなります。鮮度の高いページは高品質扱いされます。つまり、リンクは鮮度の高いページやフラッシュメモリで保存されているページから被リンクされることが重要です。これは、ランキングの高いページやニュースページからリンク取得すると、検索順位評価が向上する理由を部分的に説明していることになります。さぁ、インターネットでのPR活動が再びアツくなりますね!
 

リンクスパムの判断シグナル速度について

スパムリンクの急増を識別する一連の指標があります。phraseAnchorSpamDays機能に注目すると、Googleはスパムのリンク判断速度を効果的に測定できていることが分かります。これを使えば、サイトがスパム行為を行っているかどうかを簡単に特定し、ネガティブSEO攻撃を無効にすることもできるでしょう。後者について懐疑的な人のために説明すると、Googleはこのデータを使用してリンク検出のベースラインを現在の傾向と比較し、いずれのリンクもカウントしないようにすることができるわけです。
 

Googleはリンクを分析する際に、対象URLの直近20件の変更のみを活用する

以前、GoogleのファイルシステムがWayback Machineと同様にページのバージョンを時間の経過とともに保存していることを説明しました。私の理解では、Googleはインデックスしたものを永久に保持します。これは、単にページを無関係なターゲットにリダイレクトすることでリンク資産を継続評価させない理由のひとつでもあります。ドキュメントでは、この考えを補完しつつ、ページに対してこれまでに行われたすべての変更を保持していることを暗示しています。DocInfoを取得して比較のためにデータを表示する場合、対象ページの最新20件のリンクのみが考慮されます。

引用)iPULLBANKの記事より一部抜粋&意訳

リンクも重要ですね。GoogleはそもそもWebページのインデックス方法を3段階に分けており、トップページのように重要でアクセスが多く、定期更新されるページは重要視しているページであり、そこからの被リンクはとても効果的とのことです。また情報の鮮度も大事で、最新情報やページからの被リンクも“今でも必要とされているWebページである”という解釈から価値が高いとのことです。また、Googleはリンクによるランキングを考慮する際、最新の20件のリンクを前回時と比較し評価するようです。確かに、そうすれば“今でも価値の高いページか”、“直近で変なリンクばかり増えていないか”等が分かり、ネガティブSEOの餌食になることもなく、健全で必要とされているWebページであるという評価と演出に繋がるわけですね。とても合理的な判断方法です。逆に言えば、常にニュースページや他サイトのトップページからリンクが増加されているサイトページの需要度は高く、検索上位になるということです。

 

トップページのページランクは全下層ページに適用される

すべてのWebページには、トップページのページランク(Nearest Seedバージョン)が紐付けられています。これは、新しいページが独自のページランクを取得するまで、新しいページのプロキシとして使用される可能性があります。おそらく独自のPageRankが計算されるまで、これとsiteAuthorityが新しいページのプロキシとして使用されます。
 

トップページの信頼度でページランクが変わる

Googleは、トップページをどの程度信頼しているかに基づいてリンクの評価方法を決定します。ですので従来通り、リンクは量ではなく、品質と関連性に重点を置く必要があります。

引用)iPULLBANKの記事より一部抜粋&意訳

なるほど。つまり新しく作ったページはまだ独自のページランクが無いため、トップページのページランクとsiteAuthority(サイトの権威性)が代替されているとのことです。だから、パワーの強いサイトでの新規ページはすぐに順位上昇するわけですね。その後ページ単位で評価され順位が落ちたり維持されたりするわけですね。例えるなら、新規ページは親の七光りをどれくらい享受できるか、ってことですね。そして、トップページのページランクが高ければそこからのリンク効果も高いので、関連性と品質が大事という話です。これも合点がいく話ですね!

 

用語とリンクのフォントサイズは重要

私が2006年に初めてSEOを始めた際、まずやったことのひとつは、文章の大事な部分を太字にして下線を引いたり、大きくしたりすることでした。ここ5年間でも、世間ではそういったことをやる価値はまだあると言われているようです。私はそれに対して懐疑的でしたが、Googleがドキュメント内で重要用語の重み付けフォントについて認識していることが分かりました。リンクのアンカーテキストに対しても同様です。
 

ペンギンが内部リンクを削除

アンカー関連項目の多くでは、“ローカル”という概念で区別されても結局同じサイトの中のひとつであると解釈されるようです。このDropLocalAnchorCountは、一部の内部リンクはペンギンアップデートによって無視されていることを示しています。

引用)iPULLBANKの記事より一部抜粋&意訳

まず、強調したい言葉やリンクはフォント形式やサイズを変えた方が良いようです。Googleはそれらを識別するので、「分かりやすく使いやすいサイトページか」ユーザー体験レベルで判断できるのだろうと予測されます。また、地域別内部リンクのアンカーテキストに無駄に施策キーワードを入れるサイトがありますが(例:北海道の看護師求人、秋田の看護師求人…のように徹底して施策キーワードを入れ込んだアンカーテキスト)、そういった部分に関してもペンギンアップデートのDropLocalAnchorCount属性が無視しているとのことです。自然で必然的なアンカーテキストが一番良いわけですね。ますますSEOはマーケティングだということが分かります。

 

リンク否認に関する情報は記載が無い

否認データは他の場所に保存することもできますが、特にGoogle検索ランキングシステムには保存されていません。それは品質評価者が使うデータに直接アクセスできるためです。これは、否認データがコアランキングシステムから切り離されていることを示唆しています。私の長年の仮説は、否認はGoogleのスパム判断機能を訓練するためのクラウドソース機能エンジニアリングの取り組みであるというものでした。データが“オンライン”状態ではないことから、この仮説が真実である可能性が高いです。

引用)iPULLBANKの記事より一部抜粋&意訳

リンク否認ツールで申請したドメインやURLは特に検索ランキングシステムに組み込まれるのではなく、再審査リクエストを受け付ける人やリンク評価を調査するような人が使用するためのデータベースに保存されているだけのようです。ちなみにリンク評価のメカニズムはめちゃくちゃ複雑かつ合理的なようで、とてもGoogle以外が再現できるようなものではない、とのことでした。ここでは紹介しませんでしたが、原文ではリンク収集活動についてもしっかりと行う良い機会だ、と記載されています。

 

短いコンテンツはオリジナリティで採点される

OriginalContentScoreでは、文字数の少ないコンテンツの場合、その独創性によって評価されることを示唆しています。おそらくこれが文字数の少ないコンテンツが必ずしも文字数の多さの尺度で計られるわけではない理由です。一方で、キーワード情報に関する詰め込み具合の評価指標も存在します。

引用)iPULLBANKの記事より一部抜粋&意訳

文字数が少なくても、その代わりにオリジナルコンテンツ評価が働き、ページの品質評価をしてくれるとのことです。おそらく外部リンク等も判断材料に入るのでしょうが、文字数が少ないなら少ないなりに話題性が必要になるかもしれませんね。

 

ページtitleは依然としてクエリとの親和性が評価される

ドキュメントには、titlematchScoreという属性があることが示唆されています。この説明は、ページタイトルがクエリにどれだけ一致するか、を依然としてGoogleが積極的に重視していることを示唆しています。ターゲットキーワードを左端に配置することは、依然として有効な手段です。
 

文字数による影響はない

Gary Ilyes氏は、SEOがメタデータの最適な文字数をすべて作り上げたと述べています。このデータセットには、ページタイトルやスニペットの長さを評価する指標はありません。ドキュメントで私が見つけた唯一の文字カウント基準は、スニペットの一部として使用できるものを決定するsnippetPrefixCharCountくらいです。これは、私たちが何度もテストしてきたことを裏付けるものであり、長いタイトル文字数はクリック数を増やす上では最適とは言えませんが、検索ランキング向上という視点では問題ございません。

引用)iPULLBANKの記事より一部抜粋&意訳

titleタグに施策キーワードを含有させることは重要であり、左端(最初)のほうにあるほど効果的なようです。これはレガシーな施策ですね。また、検索順位を上げようとしてtitleタグの文字数が増えても問題は無いようで、むしろある程度検索順位に寄与するかもしれないようです。しかし、今では長すぎる文章はGoogleによって書き換えられてしまいますし、それによってNavboostでクリック数が悪ければ再ランキングされる際に順位下落してしまうわけですので、しっかりとマーケティングして適切なtitleを記載するようにしましょう。

 

日付は非常に重要

Googleは最新情報であることに非常に重点を置いており、ドキュメントでは日付とページ更新を適合させようとするGoogleの数多くの試みが示されています。

  • bylineDate – これはページ上で明記された日付を確認する属性です。
  • syntacticDate – これはURLまたはタイトルから抽出された日付を確認する属性です。
  • semanticDate – これはページのコンテンツ内容から推察される日付を確認する属性です。

運用者がここで取れる最善の方法は、日付を指定し、構造化データ、ページタイトル、XMLサイトマップ全体で日付を一致させることです。ページ上の他で明記した日付と違う日付をURLに入れたりすると、コンテンツのパフォーマンスが低下する可能性があります。

引用)iPULLBANKの記事より一部抜粋&意訳

Googleは投稿日&更新日&初回インデックス日&XMLサイトマップ表記日等、色々な情報で日付が合致しているうえで、最新性を評価します。そう考えるとXMLサイトマップに<lastmod>の明記は必要でしょうし、しっかりと日付が分かるようにした方が良いと思います。また、日付をURLに入れて投稿する場合は、その日付もしっかり合わせたほうが良いでしょう。但し、米国西海岸時間に合わせたほうが良いのか等、混乱を招くと思いますので(実際には日本時間で問題ないですが)、URLには日付ではなく内容を推察しやすい語句でファイル名生成したほうが良いと思います。

 

ドメイン登録情報はページに保存される

Googleがレジストラとしてドメイン登録者情報を検索ランキングシステムに活用しているという都市伝説は長年言われ続けてきました。でもこれはどうやら事実に格上げできそうです。Googleは最新の登録情報を複合ドキュメントレベルで保存しています。前述したように、これは新しいコンテンツの真偽を判断する分別化のために使用されている可能性があります。また、所有権が変更される前の登録ドメインを分別化するために使用することもできます。最近、期限切れのドメイン悪用に関するスパムポリシーの導入により、この問題の重要性が高まっているのではないかと思われます。

引用)iPULLBANKの記事より一部抜粋&意訳

要は、ドメイン登録情報はGoogleもチェックして保存することで、ドメインに前科が無いか(非推奨なことをして手動対応を受けている、またはマルウェアを孕んでいる等)確認したり、中古ドメインの悪用にも活用できるとのことです。検索ランキングシステムにどこまで影響するか分かりませんが、Googleが確認しているのは事実のようです。

 

動画が大半を占めるWebページは別モノ扱い

サイト上のページの50%以上が動画の場合、そのサイトは動画中心であるとみなされ、異なる扱いを受けます。

引用)iPULLBANKの記事より一部抜粋&意訳

動画がコンテンツ全体の半分以上を占めるコンテンツになっている場合は、動画ページとして扱われて、通常のWebページの検索ランキングとしてではなく、動画検索のほうに引っかかるようになるのかもしれません。いずれにしても低品質ページとか通常ページ等の尺度では評価されないということですね。

 

YMYLについて

“Your Money or Your Life(お金や人生など重要な話題に関するコンテンツ)”は特に厳しい評価をされます。ドキュメントには、GoogleがYMYL健康とYMYLニュースの評価を生成する判断軸があることが示唆されています。また、これまでに見たことのない“関連情報クエリ”についても予測を行い、それがYMYL扱いになるかどうかを判断します。最後に、YMYLは大カテゴリレベルでコアアルゴリズム化されており、これはシステム全体が定量化に基づいて機能していることを示唆しています。

引用)iPULLBANKの記事より一部抜粋&意訳

YMYL系コンテンツは別軸でランキング評価する指標があり、かなり大規模にコアアルゴリズム化されているとのことです。そして、YMYLにおける信用性や信憑性を既に数値化し、評価しているとのことです。特に健康面やニュース(社会情勢や経済情勢等)面において機能しているようですね。

 

サイトへの埋め込みページは親和性が大事

エンベッド(埋め込み)に関して、Googleはサイトと埋め込みページの親和性を具体的に数値化し、サイト内容と埋め込み内容を比較して、そのページがどの程度トピックから外れているかを確認しているようです。siteFocusScore属性は、サイトが1つのトピックにどれだけ忠実であるかを示します。サイトのトピックとしての忠実半径として、サイト用に生成されたsite2vecベクトルに基づいて、ページがサイトのコアトピックからどれだけ離れているかを示唆することができます。

引用)iPULLBANKの記事より一部抜粋&意訳

これは例のドメイン貸しにどれくらい影響する検索ランキングシステムか分かりませんが、サイト内に寄稿されたりiframe等によって埋め込まれたりしているページがある場合、そのページ内容がサイト自体のテーマ性とどれくらい合致しているか(していないか)が重要な判断軸となっているようで、そのテーマ性で網羅できる半径も定量化しているとのことです。要は、テーマ性を無視したコンテンツページを作るなってことですね。これは埋め込みであろうが直接コードであろうが同じ理屈が当てはまると思います。

 

Googleが意図的に小規模サイトを攻撃している可能性はあるか

Googleには、サイトが“小規模な個人サイト”であることを示す特定フラグを持っています。小規模サイトの定義は分かりませんが、これまで私たちが理解していることから推察するに、GoogleがTwiddlersを使って小規模サイトの検索順位を上げたり下げたりすることができると安易に想像できます。とはいえ、ヘルプフルコンテンツアップデートによって打撃を受けた中小企業からの反発を考えますと、Googleがこの機能を使ってどうしたいのかよく分かりませんね。

引用)iPULLBANKの記事より一部抜粋&意訳

Googleは個人ブログや小規模サイトを認識しているとのことです。であれば、TwiddlersによってQDDの一環として排除することは簡単にできるはずですよね。ただ、ヘルプフルコンテンツアップデートはサイトの規模ではなく、本当に有用かどうかを判断するわけで…そんなフラグは必要ないよね、って話です。
でも、結局は世の中の色眼鏡と同じように「何を言うかよりも誰が言うか」が大事なのかもしれません。

 

ヘルプフルアップデートはパンダの子!?

圧縮品質シグナルには、“ベビーパンダ”と呼ばれるものへの言及が2つ程ありました。ベビーパンダは、最初のランキング後に調整されるTwiddlersの中のひとつです。ベビーパンダは、パンダ上で機能するという言及はありますが、それ以外の情報はドキュメントにありませんでした。ヘルプフルコンテンツアップデートには、パンダと同じ機能が数多くあるという点について、私たちは概ね同意しています。これが参照クエリ、リンク、クリックを使用するシステム上に構築されている場合、コンテンツ改善の次に、それらに重点を置く必要があります。

引用)iPULLBANKの記事より一部抜粋&意訳

まず、コアアルゴリズムに組み込まれているとはいえ、パンダもペンギンもあるのは懐かしいと言いますか…しっかりと内部で機能しているんですねぇ。そしてパンダの小規模版としてヘルプフルアップデートは機能しているようだ、と推察されています。そしてヘルプフルコンテンツアップデートもTwiddlersで調整できると…。もうTwiddlersは無双状態ですね(笑)。私はTwiddlers管理者になりたいです(笑)。

 

以上です

前編後編と、長文にお付き合いいただき有難うございました。今回、私の方で原文からいくつか割愛した項目もあります(ニューラルネットワークとかは直接的に有用な気はしなかったので外したり…)。でも、原文の全部を読み終えて思うことは、心の底から「どうすれば本当に良いサイトになるのか、ユーザーのコンバージョンを得られるのか、ワクワクするようなサイトを作れるのか」という点に全集中することがSEOになる、と確信したことです。そして今私がお取引している企業様に対するアプローチやSEOに間違いはない、と自信を持てました。もうSEOはテクニックや知識ではなく、マーケティングとアイデンティティなのだと思っています。大事なことなので、もう1回言わせてください。SEOはマーケティングとアイデンティティです!SEOはマーケティングとアイデンティティです!(あ、2回)

ちなみに、最後に原文ではiPULLBANKのMike King氏は以下のように締めくくっています。

私がSEOに関して気に入っているところは、SEOは常に進化するパズルのようなものであるということです。私たちの努力でブランドが数十億ドルを稼ぐのを支援するのは楽しいことですが、それとは別にGoogleの仕組みを解明することで個人的好奇心を満たしてくれることにも充実しています。今回ようやくカーテンの裏側を見ることができて、とても嬉しかったです。

引用)iPULLBANKの記事より一部抜粋&意訳

 
私も他人のことを言えませんが、SEOはマニアックな人たちの集まりであり、好奇心の強い人たちの集まりでもあるのですね。

カテゴリー

新着記事

人気記事

過去記事