2023年9月に米国現地(英語圏)で実施されたEnglish Google SEO office hoursについて、フォローアップ記事が出ましたので、毎度のように和訳してご紹介します。今月は多いです。全部で25個質問がございます。そのうちの前半12個をご紹介します。残りは次回の記事でご紹介します。毎度のことながら質問事項の大半は世界共通の疑問で、かつ基本的な内容なので参考になるはずです。皆さまも是非ご確認ください。
質問と回答
2023年9月のGoogleSEOオフィスアワーの議事録を和訳しています。毎度のことながら内容に関して何かあればGoogle Search Centralのヘルプコミュニティへ質問しましょう。今回ご紹介するのは、全25質問のうちの12個です。うーん…今回は例月よりも少し難しい内容が多かった気がします。とはいえ、もちろん参考になりますので、まず和訳した質問と回答をご紹介します。
1.Googleは私のWebサイトを誤ってwww有バージョンでインデックスしていませんでしょうか?
John:Wanからの質問です「Googleが私のWebサイトをwww有バージョンでインデックスしてしまっています。正しいページはHTTPで、ドメイン名.myはwww無のはずです。」
Wanさん、こんにちは!あなたのページを見てみましたが、サーバが自動的にwww無バージョンからwww有バージョンにリダイレクトし、link rel canonical要素は適切に設定されているようです。Chromeを使用している場合、一見wwwが付いていないように見えるかもしれませんが、ブラウザ上部のURLを2回クリックすると、www付きの完全なURLに展開されます。そして、これは実際に問題にはなっていません。サイトのwww有バージョンもwww無バージョンも、Google検索においては問題ありません。うわぁ、wwwがすごい数になってしまいましたね!
2.フィルタリングされたデータがSearch Consoleの全体的なデータよりも多くなるのはなぜですか?
Gary:Ornellaさんからの質問です:「なぜフィルタリングされたデータがSearch Consoleの全体的なデータよりも多いのですか?」と。
最初に、私はこの質問が大好きですが、おそらくあなたが意図した質問とは違う視点で捉えています。簡単に答えるなら、Googleはブルームフィルタと呼ばれる手法を多用しています。なぜなら、私たちは多くのデータを処理する必要があり、ブルームフィルタは多くの時間とストレージを節約できるからです。しっかりと長く答えるなら、Googleがブルームフィルタを多用している点について、多くのデータを扱う必要があるからだということに変わりはありませんが、もう少ししっかり述べておきたいと思います。ある集合の中の多数のアイテム、例えば数十兆とは言わないまでも数十億のアイテムを扱う場合、物事を素早く検索するのはものすごく大変な作業になります。そこで便利なのがブルームフィルタです。ブルームフィルタを使うと、メインのセットで考えられる項目のハッシュ関数を含む別のセットを参照し、そこでデータを調べることができます。最初にハッシュ関数を調べる部分ではかなり高速処理できますが、ハッシュ関数は意図的でもそうでなくともデータロスが発生することがあります。データが少なければ少ないほど、メインセットの時点で何かが起こっているかどうかについての予測が正確にできます。基本的にブルームフィルターは、データセットに何が存在するかを予測することで調べる作業を高速化しますが、そのぶん精度は下がるでしょう。
3.Google Sitesで作成したサイトページが正しくインデックスされないのはなぜですか?
John:フランス語で投稿された質問で、要は「Google Sitesで作られたWebサイトのページが正しくインデックスされないのはなぜか」という質問です。
他の国から質問をいただけるのはとても嬉しいですね。話を戻しますと、Googleサイトで作成されたWebサイトは、Google検索にインデックスされる可能性がありますし、実際にインデックスされています。しかし、Google Sitesで使用されるURLは、公開時とログイン時で表示されるURLが異なることがあるため、確認するのが少し難しいのです。はっきり言って、技術的にはインデックス可能ですが、SEO目的という点ではあまり良いわけではなく、Search Consoleで追跡するのは難しい場合があります。SEOを第一に考えるのであれば、Google Sites以外の選択肢も検討し、それぞれの長所と短所を確認してから取り組んだ方が良いかもしれません。また、Search Consoleでパフォーマンスを追跡するために、Google Sitesコンテンツに独自ドメイン名を使用することもできます。独自ドメイン名を使用すれば移行も容易になり、Search Consoleでドメイン全体の所有権を確認することができるようになります。
4.私たちのサイトには多くのボタンがあり、それをクリックすると他のページへのリンクが表示されます。Googleはこれらのリンクをクロールできますか?
Gary:Sarabjitからの質問です。「私たちのサイトには複数のボタンがあり、クリックすると他のページへのリンクが表示されます。Googleはこれらのリンクをクロールできますか?」
基本的にGooglebotはボタンをクリックしません。
5.私が高品質コンテンツを書いているなら、(バックリンクを得るための)“ゲスト投稿”はGoogleのガイドライン違反になるからやめたほうが良いのでしょうか?
John:Brookeからの質問です:「最近ほとんどのWebサイトが(バックリンクを得るための)“ゲスト投稿”を購入するオプションを提供しています。もし私が高品質コンテンツを書いているのなら、これはGoogleのガイドラインに反しているのでやめた方が良いでしょうか?」
Brookeさん、ご質問ありがとうございます。すでに正しい方向がお分かりになっているようですね。はい、リンクのためにゲスト投稿を利用することはスパムポリシーに反しています。特に、これらのリンクが検索結果に影響を与えないことを示すよう属性を記入することが重要です。これはリンクのrel=nofollowまたはrel=sponsored属性で行うことができます。サイトを宣伝するために広告を利用するのは構いませんが、リンクは前述のようにブロックすべきです。
6.ECサイトにおけるカテゴリ一覧ページにあるコンテンツは、全体的に検索ランキングを向上させるほどの価値がありますか?
Gary:Brookeからの質問です:「ECサイトのカテゴリページのコンテンツは、全体的なランキングを上げる価値があるのでしょうか?」
あなたのページですから、好きなコンテンツを追加することはできます。でも、自動生成されたような低品質な文章を、あらゆるカテゴリ一覧ページで何度も何度も繰り返し使うのはやめてください。一般的に見てもバカバカしく見えるだけです。もしあなたのページにコンテンツが必要なら、閲覧者が本当に役に立つと思うコンテンツを追加してください。検索に寄与することだけを目的に追加してはいけません。ECサイトに関する推奨事項もご覧ください。
7.不正確なセマンティックタグは、GoogleのWebサイトコンテンツに対する理解を低下させますか?
John:間違ったセマンティックタグは、GoogleのWebサイトコンテンツに対する全体的な理解を低下させ、細かい部分まで認識する能力を低下させますか? 例えば<hr>タグは、話題の切り替えを知らせるためのものですが、私はデザイン上の目的でしか使っていないと思います。
興味深い質問ですね。一般的に、セマンティックHTMLを正しく使うことは、検索エンジンがページの内容やその文脈をより理解するのに役立ちます。例えば、ページの見出しをマークアップすれば、その見出しにコンテンツが合っていることを明確に示すことができます。検索ランキング1位になるための秘策というわけではありませんが、本文中で何を言いたいのかGoogleが理解しづらい場合、見出しという形で明確な要約を提供してもらえれば、理解の助けになります。とはいえ実際には、見出しの情報だけでは微妙で、私たちがそのページをどれだけ理解しているかに左右されるので、見出しも含めた他タグも利用しているか確認するのは良い心構えだと思います。逆に、文脈理解のために正しいHTMLから正しくないHTMLにしたとしても、Googleが理解する上では何とも言えません。セマンティックHTMLを間違って使っていたとしても検索エンジンはページを理解できる形になっているでしょうか? 恐らく検索エンジンのページ理解の仕方に違いは見られないのではないでしょうか。セマンティックHTMLを間違って使うことで、意味が急に曖昧になってしまったりしますか? それなら、セマンティック的な構造を用いて、曖昧にならないよう対応ください。具体例でいただいた<hr>タグについてですが、それを間違った使い方になったからといってページ理解ができなくなるとは思えません。間違った使い方をする方法は無限に考えられますが、Webデザイナーがうっかり<hr>タグを間違って使ってしまっても、大きな問題にはならないと思います。とはいえ、<hr>タグの間違った使い方も無限にあるわけで。“場合による”と言うのに、ずいぶん長くなってしまいました、失礼。
8.Google Search Consoleの404ページのレポートには、JSONやJavaScriptのものと思われるURLがたくさんあります。これは無視すべきでしょうか?
Gary:Rezaからの質問です。「Google Search Consoleの404ページのレポートに、JSONやJavaScriptのコードから誤って拾ったと思われるURLがたくさんあります。これは無視すべきでしょうか?」
無視することもできますし、HTTPヘッダーでnoindexすることもできます。
9.サイトマップのインデックスファイルは、他のドメインのサイトマップファイルをリンクしても良いでしょうか?
John:Dhruvからの質問です:「サイトマップインデックスファイルは他のドメインのサイトマップファイルへのリンクを記載することができますか?」
Dhruvさん、興味深い質問ですね。Google側からの答えは「たぶん大丈夫」です。なので、個人的にはそういった記載をしない方が良いと思います。同じドメインではないURLのサイトマップを送信できるのは、robots.txtでサイトマップを送信するか、Search Consoleですべてのドメインの所有権を確認するかの2つの状況化でのみ適用されます。特にSearch Consoleの所有権に関しては曖昧なところがあり、Webサイトを分析してもすぐに所有権まで確認できるわけではないため、その関連性を覚えておけないかもしれません。もしあなたがサイトマップファイルを作成していて、こういった設定をしたいと思ったら、私のアドバイスとしては、サイトマップファイルにXMLコメントを追加することで、これらの要件を覚えておき、将来間違って削除してしまわないようにすることです。Search ConsoleはGoogle固有のものなので、他の検索エンジンがこのような要件を持っているかも確認してほしいところですね。
10.GoogleがWebサイトのmeta-descriptionsを独自に選択する可能性を減らすには?
Gary:Sam Bowersからの質問です:「GoogleがWebサイトのメタディスクリプションを自ら選択する可能性を減らすにはどうしたらいいでしょうか?」
良い質問ですね。常にというわけではありませんが、通常、Googleのアルゴリズムは、ページ内コンテンツが少ない場合やページにある実際のコンテンツよりもmeta descriptionの方がユーザーの検索クエリに関連していると判断した場合に、あなた方が設定したmeta descriptionを使用するでしょう。ディスクリプションとスニペットについて詳しくはこちらをご覧ください。
11.検索エンジンのボットに、ページ上の特定の部分だけクロールさせないように指定する方法はありますか?
John:検索エンジンのボットに、ページ上の特定の部分だけクロールさせないように指定する方法はありますか(一方で、ページ自体のクロールとインデックスはされていること)。続けて、“メガメニュー”の重複が多く、それをブロックしたいとのことです。
確かに、ページの一部のインデックスを防ぐためにできることはありますが、とはいえヘッダー、メニュー、サイドバー、フッターのような一般的なページ要素については、インデックスからブロックする必要はありません。検索エンジンはありのままのWebを扱うので、巨大なメニューやフッターがあっても問題ありません。ページ上の他のコンテンツについては、robots.txtで禁止したソースを持つiframeを使うか、同様にrobots.txtでブロックされているJavaScriptでコンテンツを取り込むことで、クロールされない状況を作ることはできます。スニペットで何かが表示されるのを避けたいだけなら、data-nosnippet属性を使うのが良い方法です。しかし繰り返しますが、メニューを隠すためだけにここまで複雑にする必要はありません。不必要な複雑さは、予期せず物事が壊れてしまうリスクやバグを引き起こすので、本当に必要な場合のみに限定するのが良いでしょう。
12.Webページの無限スクロールを推奨しますか?一般検索からの流入やGoogleBotへの影響はありますか?
Gary:Jeethuからの質問です:「Webページの無限スクロールを推奨しますか?その機能を追加した場合、一般検索からの流入やGoogleBotへの影響はありますか?」
無限スクロールをどのように実装するかにもよりますが、各コンテンツやスクロール後のページがユニークなURLでアクセスでき、見つけることができるのであれば、一般的には無限スクロールでも問題ないでしょう。
いかがでしたでしょうか?
今回、かなり訳すのが難しかったですし、内容も一部難しいのがありました(Googleが示す数字が実数値を上回るのは、一部で判断して予測数字を出すブルームフィルタを使っているから…とか)。そして、相変わらずGary氏の回答は性格が悪い(笑)。
さて、今回私が気になった質問とファインディングスをご紹介します。
- クリックするとリンクボタンが展開するボタンを辿るのか?Googleはクリックしないからリンクを辿りません(4.より)。おそらく違った形でURLを識別するかと思われます(Garyは言葉足らずで…)。
- 何かの一覧ページに静的なコンテンツを掲載しているサイトページを良く目にしますが、検索だけを見据えて、単語だけを変えた静的コンテンツはユーザーにとってもGoogleにとっても鬱陶しい(6.より)。
- ページの一部をクロールさせたくない(またはインデックスさせたくない)なら、iframeやJavaScriptを使って他ドメインURLから呼び起こしたコンテンツを掲載し、そのiframeとJavaScriptを持つドメインURLをrobots.txtでブロックすれば一応対応できるけど、何か変なことをやらかしてしまいそうだから推奨はしない。そもそもそのクロールやインデックスをさせたくないのが(ページ群を横串に存在する)メニューやフッター、ヘッダーであればわざわざそんなことをする必要はない。ちなみにスニペットに使われたくないならスニペットに使用しないように指示するタグを使えば良い(11.より)。
以上くらいでしょうか。実は11.の一部のコンテンツを非表示にしたいという相談は確かに来ます。その理由は「既に書いて公開しているページの内容を、新しいページの中でも一部書いていて、便宜上記載しなければならなかっただけなので、新しいページの中の同じ箇所のコンテンツ部分だけクロールをしてもらいたくない」というものでした。その場合2つのやり方があり、そもそも設計を見直すか、優先順位の高いほうのページへ(低い方のページから)「詳しくはこちらに書いてあります」とリンクする、等がありますが、よほど重要でない限り放置でも良いです。むしろどうしてそうなってしまったかを考えれば違うやり方があったはずで、それがそもそも設計を見直すことになると思います。
というわけで今回はここまで。残りは後日ご紹介します。
ではでは~♪