• Googleにコンテンツを読ませない方法

Googleにコンテンツを読ませない方法

作成したコンテンツページをGoogleにインデックスさせない方法やケースについてのドキュメントをGoogleは更新しました。更新部分はEEA(欧州経済領域)ユーザーに対する場所要素の非表示方法に関してですので、英語版ドキュメントの最後に追記された程度です。従って今回の更新は日本サービスで展開している人にとっては不要なのですが、それとは別に(コンテンツを読み込ませない方法について知る)良いおさらいの機会だと思いますのでご紹介しておきます。

Googleにインデックスさせたくないケースは

Google検索のロボットの3大原理として、Googlebotはクロールしてインデックスしてランキングします。平たく言えば、「見に来る」「検索して表示する」「検索して上位にする」という動きです。このGooglebotの働きにおいて、「見に来てほしくない」「見ても良いけど検索表示させたくない」ケースがあると思います。そういうケースをGoogleの[Googleと共有するコンテンツを制限する]ドキュメントでは、以下のように(例として)挙げています。
 

  1. サイト訪問者にのみ見せたいコンテンツページがあり、Google検索結果画面の時点で表示したくない
  2. コメント欄が荒らされたせいで、Googleに低評価ページであると思われるのを防ぎたい
  3. 数十万ページ以上あるサイト内でクロール資産を考えると、余計なページや重複ページを読み込まれたくない

 

上記の例はそもそもクロールを制御したり、meta情報からnoindexしたりcanonicalしたり…等があります。Googleのドキュメントには、そもそもページを削除する、パスワード保護する、noindexする、robots.txtでdisallowにする、等のオプトアウト方法(除外方法)をパターン掲載していますが、上記の1.2.3.においてどういうやり方があるか、私なりに紹介しておきます(Googleはこのインデックスさせたくないケース毎に付随するやり方を明記していないので…)。

ケース毎の方法論

上記の3パターンに合わせて方法論をご紹介します。私なりの方法論も入っております。
 

1.サイト訪問者にのみ見せたい

ページは存在していて、サイト内のリンクやURLから読むことはできるけど、Google検索から直接辿り着かせたくない場合は2つの方法で充分です。ひとつはrobots.txtで対象ページのURLを指定してクロール制御する方法です。これは簡単ですが、Disallow:で対象のURLがディレクトリ止まりになっており、それ以下にもURLが存在している場合は、その全てのページにクロールが来なくなってしまいますので、そもそものURL構造を考察し直すようにしてください(または/index.htmlというURLを正規にしてそれをDisallow対象にすることで…というやり方もありますが、URLの命名規則等が破綻する恐れがありますので私はオススメしません)。もうひとつは<meta name=“robots” content=“noindex” >でインデックスを防ぐやり方ですね。
 

2.コメント欄をクロール対象外にしたい

一番手っ取り早いのはコメントを承認制にして、運用者が承認したコメントのみ掲載する方法です。でもこれですとコメント欄が活性化しませんし、リアルタイム性が欠落します。他にも会員制コメント欄にするのも良いですが、それもアクセスが増える機会を損失します。コメントしたい場合はコメント欄だけ別ページにして、そのページをDisallow:にしたり、noindex/nofollowにしたりする方法もありますが、同じページ内で閲覧できないのも面倒かもしれません。そこで私が勧める方法は、コメント欄部分をiframe化やJavaScript化して外部配信にし、配信元をDisallow:やnoindexにするやり方です。これでコメント欄だけGoogleがクロールやインデックスできなくなりますので、当然ランキングにも影響せずページのメインコンテンツのみで評価してもらえます。PageSpeed InsightsやSearch Consoleでアラート表示されるかもしれませんが、気になるのはそれくらいで影響度は低いと思いますし、クローキング扱いもされないので良いのではないでしょうか。但し、良質なコメントであってもGoogleに読み込まれなくなりますので、そこは上手く折り合いをつけると良いです。良質なコメントだけ別途抜き出して紹介する等の方法もありますので、この辺のコミュニティページの運用担当でご質問したい方はお問い合わせください。
 

3.余計なページや重複ページを読み込まれたくない

まず、余計なページが出てしまっており「そこを読み込まれるくらいなら正規のURLを読み込んで欲しい」という場合は、canonicalを使用すると良いでしょう。但し、canonicalはGoogle検索においても“強制”ではなく“示唆”をする信号ですので絶対的ではありません。よく使用する例としては動的URL(例:?color=red等)でパラメータ付URLをパラメータ前までのURLにcanonicalする方法ですね。但し、この場合、パラメータが無いHTMLファイルとパラメータがあるHTMLファイルが別々でないと、同じmetaタグ内に記載することになってしまいますので注意が必要です。
URLとファイルが完全に別々でありながら、情報が重複していたり低品質であったりする場合はnoindexにしつつ、ある程度の塊で読み込まれたくないページ群があるなら、Disallow設定すると良いと思います。ちなみに、Disallowはrobots.txtを使って“そもそもクロールに来させない”方法であり、noindexはクロールの際のmeta内で“検索表示するな”と指示する方法です。つまり、クローラーが来ているか来ていないか、という違いがありますのでクロール資産戦略上の違いも出ます。ご注意ください。

Googleに読み込ませたくないコンテンツの対処法を知っておくこと

以上です。今回は良い機会でしたので、このブログでもあらためてご紹介しましたし、特段新しい情報があったわけではございません。しかし、しばらくクロール除外やnoindexに携わっていないと、「あれ?どうだったっけかな?」と急に不安になったりしますので、これを機におさらいしておきましょう。

また、今回の情報はSEOにおけるコーディングテクニックのひとつであり、SEOの本質を問う話ではありません。サイトを作って今回の対処法をやたら滅多に使うくらいでしたら、そもそものサイトの建て付けが不自然なはずです。不安になったらある程度無料診断しますので、いつでもお問い合わせください。

カテゴリー

新着記事

人気記事

過去記事