• URL正規化に伴うcanonicalに注意

URL正規化に伴うcanonicalに注意

Googleは米国現地時間5月2日に、コンテンツシンジケーション(コンテンツをメディアに転用投稿しているケース)において、内容が重複するのを防ぐためのrel=“canonical”は非推奨とする旨、発表しました。「正規化に関する問題を修正する」というドキュメントにその内容を追記することで発表している扱いとしていますが、この内容がまだ日本語版がございません。そこで、ドキュメントごと和訳しましたのでご紹介したいと思います。

引用)Latest documentation updates

URLの正規化について

Googleに対して、またはリテラシーの高いユーザーに対して、コンテンツページとそのURLをしっかり1対1にして「このページはこのURL!」と明確にすることは非常に重要です。例えば、wwwがあったりなかったり、/index.htmlがあったりなかったりしてはGooglebotも混乱してしまうわけです。それどころかURLは違うのに同じような内容がいくつもあるとGoogleが評価しづらくなり、その結果、Webサイト側からすれば正当なランキング評価を得られないことにも繋がります。そこで、正規のURLをしっかりと設定する(URLの正規化)ためにGoogleは正規化に関する解決策についてドキュメントを用意しています。まずはページ全体を和訳していますのでご確認ください。

正規化に関する問題を修正する

原則、URL検査ツールを使用して、Googleがどのページを正規と見做したか確認できます。しかし、正規化ページを明確に指定してもコンテンツの品質などの様々な理由で、Googleが別のページを正規と選択することがあります。問題解決に取り組む前に、Google検索から来訪するユーザーにとってGoogleが選択した正規URLが、あなたが選択した正規URLよりも理に適っているかご確認ください。
実際にGoogleによって表記された正規URLが、検索表示を希望する正規URLと異なる理由は様々です。中でも最も一般的な問題は以下のものがあります:
 

一般的な正規化に関する問題

ローカライズされたアノテーション設定されていない言語バリエーション
複数のWebサイトがあり、実質的に同じコンテンツを世界中の異なるユーザーにローカライズして提供している場合、ローカライズサイトに関するガイドラインに必ず従ってください。例えば、米国、英国、オーストラリアの英語圏のユーザー向けにそれぞれ異なるサイトを運営しているがコンテンツは同じである場合、ページにhreflangアノテーションを追加することで、異なる地域のユーザーに対してそれぞれ適切なページを表示できるようになります。
 

不正確なcanonical要素
コンテンツ管理システム(CMS)やCMSプラグインの中には、外部サイトのURLを指すために正規化技術を不正に使用しているものがあります。ブラウザの開発者ツールでHTMLを確認し、不正利用されていないかを確認してください。あなたのサイトが、rel=”canonical”の不正な使用や3xxリダイレクトによって、予期しない正規化URLを示している場合があれば、CMSプロバイダに連絡してそのエラーを報告してください。
 

サーバーの設定ミス
ホスティングの設定ミスにより、予期せぬクロスドメインURLの選択が発生する場合があります。例えば、以下のような場合です:

  • サーバーの設定ミスにより、other.exampleのURLへのリクエストに対してexample.comのコンテンツが返される。
  • 無関係な2つのWebサーバーが同一のソフト404ページを返し、Googleがエラーページとして認識できない場合があります。このような場合は、ホスティングプロバイダーと連絡を取ってください。

 

悪意のあるハッキング
Webサイトへの攻撃の中には、HTTP 3xxリダイレクトを返すコードや、HTML <head>やHTTPヘッダーにクロスドメインrel=”canonical”アノテーションを挿入するものがあり、通常は悪意のあるコンテンツやスパム的なコンテンツをホストするURLを指していることがあります。このような場合、Googleのアルゴリズムは、侵害されたWebサイトのURLではなく、悪意のあるURLやスパム的なURLを選択してしまう可能性があります。
 

コンテンツシンジケーション
canonicalリンク要素は、シンジケーションパートナーによる重複を避けたい場合には推奨されません(ページの内容が全く違うことも多いため)。最も効果的な解決策は、パートナーがあなたのコンテンツのインデックスをブロックすることです。詳しくは「Googleニュースでの記事の重複を避ける」をご覧いただき、Google検索からシンジケートコンテンツをブロックするためのアドバイスもご確認ください。
 

模倣されたWebサイト
まれに、Googleのアルゴリズムが、あなたのコンテンツを許可なくホストしている外部サイトのURLを選択することがあります。他のサイトが著作権法に違反してあなたのコンテンツを複製していると思われる場合、そのサイトのホストに連絡して削除を依頼することができます。また、デジタルミレニアム著作権法に基づく請求を行うことで、Googleの検索結果から侵害ページを削除するよう要請することができます。

ちなみに、Search Consoleで管理しているプロパティ以外からcanonical URLが所有していないSearch Consoleのプロパティにある場合は、重複したページのトラフィックを確認することができないことに留意してください。

引用)Google Search Central|Documentationより和訳

 

ここでのドキュメントでは、URLが正規化されていない(意図しているものと違う)場合の特殊なケースを紹介しています。そして今回追記されたのは、コンテンツシンジケーションにおいてcanonicalは使うな、という点です。canonicalではなく、別のドキュメントを見ろ(つまり、noindexを入れろ)という内容です。図解すると以下のような内容です。
 

コンテンツシンジケーション時における設定
 

ちなみに、noindexのnameをGooglebot-Newsに変えることで、Googleニュースにおける指示のみに絞ることもできます。canonicalはGooglebotに対して「宜しければこっちじゃなくてあっちを見て」程度のシグナルなので、強制的に読み込ませないシグナルであるnoidexのほうが確実だからなのかもしれません。とはいえ、Googleは「実際には結構記事内容違うし…」というのを理由にしているのでcanonicalが非推奨な理由は分かりません(実際、記事内容vがそこまで異なることは無いかと思うのですが…)。

これは憶測ですが、canonicalを当てていても、ページ内容が異なる場合はcanonical元もインデックスされてしまうのかもしれませんね。コンテンツが一緒でもヘッダーフッターが違うわけですし、レコメンドする記事なども変わると思うので(Yahoo!ニュースをイメージいただければ分かると思います)、Googleが上手く処理できずインデックスをしてしまうのかもしれません。でも、主となる内容は重複してしまうのでランキング時に重複コンテンツ扱いをしてしまうのかもしれません。インデックスするアルゴリズムとランキングするアルゴリズムが違うのであれば起こり得るメカニズムかと思います。

canonical自体が非推奨というわけではない

今回のcanonical非推奨に関しては、あくまでもコンテンツシンジケーションの場合においてのみであって、従来のcanonicalリンク設定が非推奨なわけではありません。コンテンツシンジケーション時にはnoindexを利用するようにしましょう、という話です。

メディア関連サイト等に自分のコンテンツを転用して掲載してもらっている人や、逆にコンテンツを転用させてもらっているメディア関連サイト側の人は気を付けるようにしましょう。

カテゴリー

新着記事

人気記事

過去記事