robots.txtとは何となく各検索エンジンがサイトクロールのルールとして参照している仕様となっています(過去の経緯についてはこちらの記事が分かりやすいです)。そしてこの度、米国現地時間10月7日、Googleはrobots.txtにおいて、Googleが認識する記載ルールについてその項目(フィールドと呼んでいます)を明確化したことを発表しました。ご注意いただきたいのは、あくまでも今回のrobots.txtの解釈ルールはGoogle検索においてのみですので、Bingをはじめとした各検索エンジン全ての共通ではないということです。そのことをご理解いただいたうえで、今回のGoogle解釈の仕様についてご紹介したいと思います。
Clarifying support for robots.txt fields
What: Clarified that fields that aren’t listed in our robots.txt documentation aren’t supported.
Why: We sometimes get questions about fields that aren’t explicitly listed as supported, and we want to make it clear that they aren’t.
robots.txtフィールドのサポートを明確化
内容: robots.txt ドキュメントに記載されていないフィールドは サポートされていないことを明確にしました。
理由: サポートが明記されていないフィールドに関する質問をよく受けるため、サポート対象を明確にすることが目的です。
どういうこと?
そもそもGoogleがrobots.txtにおいて、ルール(ディレクティブとも言う)として従うフィールド(項目)は以下の4つです。
- user-agent: ルールを適用するクローラーを指定します。
- allow: クロールを許可するURLパス。
- disallow: クロールを許可しないURLパス。
- sitemap: サイトマップの完全なURL。
でも、ユーザーからGoogle宛に上記のフィールド以外に関する相談や質問が多いようで(特にcrawl-delayについて)、この度4つのフィールド紹介前に以下の文言を追加し、Googleがサポートしているのは4つのフィールドであることを強調しました。
引用)Google Search Centralより一部和訳
4つそれぞれ(user-agent、allow、disallow、sitemap)の詳しい説明やルールについてはGoogle公式ドキュメントをご確認ください。
まぁ、たまにrobots.txtに色々なフィールドディレクティブを記載しているサイトも目にしますが、Google検索においては意味がないですよ、という話ですね。Google検索だけを意識してrobots.txtを記述するなら、対象クローラーと対象ページURL、サイトマップ程度であると理解しておきましょう。