• インデックス不要ページへの対処法

インデックス不要ページへの対処法

Webサイトを作成&運用していく中で、意図せずGoogleにクロールされてしまっていて、低品質と解釈されかねないページがインデックスされてしまうこともあると思います。こうしたGoogleによる低評価や無駄なクロール消費の懸念があるページを抽出し対応する方法について、いくつかご紹介させていただきます。該当するページがございましたら是非ご参考ください。

単純に低品質なテキストコンテンツのページに対して

特別な意図や役割が無く、ただ作成したテキスト文章やコンテンツが低品質な場合、そしてそんな内容の薄いページや独自性の低いページが大量に発生し、サイトの大半を占めている場合、サイト全体が低評価を受ける可能性があります。例えば私がよく耳にするのは、某SEO会社が以前「500文字1ページの記事コンテンツを毎月100ページ納品します。これがSEOに効果的です」という企画を販売しており、申し込んで実施していたケースです。それらを放置したままWebサイトに残っていて、どうにかしたいという相談を何度か受けたことがあります。全く迷惑なSEO会社ですよね(怒)! その時その時で自分たちが儲かれば良いだけの企画で企業担当者を騙し、大量販売するなんて…最悪です。あ、話が逸れてしまいそうですので、これくらいにしておきます。

こうした低品質なページに関して、最も理想的な方法は削除やnoindexではなく、本当は各ページに高品質な独自コンテンツを入れ込んで改善することです。これはGoogleのJohn Mueller氏も以前発言していましたが、せっかくクロールしてインデックスもされているのであれば高品質化をしていった方が良いです。具体的には各ページに独自調査や見解、図表等を入れて他社記事と差別化し、読者に新たな価値を提供するよう改善することですね。

とはいえ、過去のお知らせページやユーザーに必要であるものの内容が薄く独自性の低いページには以下のようにnoindexを設定しても良いでしょう。設定方法としては、noindexにしたいページの<head>に以下のmetaタグを記述します。

<meta name=“robots” content=“noindex”>

PDFのページに対して

ニュースリリースや取扱説明書等のPDFファイルをそのままサーバに上げてリンク紹介して配信することもあるかと思います。本当はHTML形式でページ作成したほうが良いのですが、GoogleはPDFファイル内のテキストコンテンツもしっかり読み込んでくれます。しかし、PDFファイルだとリンク導線が無いため、クローラビリティ性が低い演出になってしまったり、(取扱説明書等は特に)他サイトと同じファイルで重複してしまったり、あまり良い結果を招かないケースがあります。

そこで、他のページでコンテンツフォローすることを前提にPDFファイルをnoindexするという方法があります。PDFの場合はファイルに直接noindexを設定できないので、サーバ側(Apacheの場合は.htaccessファイル)でnoindexの設定をします。設定方法は、.htaccess内に以下のX-Robots-Tagを記述します。

<FilesMatch “\.pdf$”>
Header set X-Robots-Tag “noindex”
</FilesMatch>

クロールに来させたくない場合

既にnoindex設定済みでGoogleからインデックスされていないことを確認済みの場合、もしくはこれから新規で作成するページだけどインデックスさせたくない場合は、そもそもクロールされることも勿体ないので、クロールが来ないようにrobots.txtで制御すると良いです。但し、noindexを設定していてもGoogleで「site:対象URL」検索して検索結果に表示されていないことを確認してからにしてください。noindexを設定していても、まだGoogle検索にインデックスが残っている場合、robots.txtで制御してしまうと、クロールがnoindexを検知してくれないので、永遠と検索結果にインデックスが残り続けてしまいます。

robots.txtには以下のように記載してください。

User-agent: *
Disallow: /〇〇/ (クロールブロックしたいページorディレクトリのURLを記述)
Allow: /〇〇/ (Disallow対象ディレクトリの中にクロールさせたいページがあれば、そのURLを記述)

Sitemap: https://example.com/sitemap.xml (XMLサイトマップのURLを記述)

ちなみに、「User-agent: *」と記述するのは、全ての検索エンジンのクローラーを対象とする場合です。特定の検索エンジンのみを対象にする場合、「*」の箇所にはその検索エンジンのクローラー名(Googleなら「Googlebot」)を記述します。

特定の時期を過ぎたらインデックス削除する方法

キャンペーンなど一過性の情報は、unavailable_afterによって予めインデックスから除外する日付を予約することも可能です。設定方法は、インデックス除外を予約したいページの<head>に以下のmetaタグを記述します。

<meta name=“robots” content=“unavailable_after: YYYY-MM-DD(インデックス除外したい日付)”>

Google Search ConsoleでURL削除する場合

取り急ぎ、Google検索でGoogleからのnoindex検知を待たずにインデックス除外したい場合、Google Search Consoleの[削除]を利用することができます。指定したページを6ヶ月限定でインデックス除外する機能ですのでその間にインデックスやファイルを削除して対処してください。そのページがnoindex設定や削除、クロールブロックされていれば、6ヶ月経過後も再インデックスされることはありません。

色々駆使してみてください

他にも、そもそもユーザーにとって必要のないページは削除(404ページ化)したほうが良かったり、代替となる類似ページがある場合は、そのページに向けて301リダイレクトを設定したりする等、色々な方法があります。canonicalは強制力は無いのであまりオススメしません。

状況によって使い方や最適な方法も異なりますので、色々詳しい人に聞きながら試してみてください。もちろん、私宛へのご相談はいつでもどうぞ。

カテゴリー

新着記事

人気記事

過去記事