Googlebot について、よくある質問

2009年6月24日水曜日 | 16:00

ウェブマスターヘルプフォーラム に、Googlebot や robots.txt に関する質問が多く寄せられたので、少々古い記事にはなりますが、2006 年に英語版ウェブマスターセントラルブログに掲載された記事 が、皆様の参考になればと、抄訳して掲載します。

サイトをメンテナンスのために落としています。Googebot に「メンテナンス中」のページをインデックスさせるのではなく、後でクロールに戻って来るよう伝えたいのですが、どうしたらいいですか?

サーバーが、200 (成功)ではなく、503 (ネットワーク利用不可) の HTTP ステータスコード を返すように設定してください。こうすることで、Googlebot はまた別の機会にクロールを試みるようになります。

Googlebot がサイトをクロールする負荷が高すぎる場合はどうしたらいいのですか?

ウェブマスターツール内 [サイト設定] の [クロール速度] セクションで、希望のオプションを選択していただくことができます。


Robots メタタグと robots.txt ファイルはどちらを使うのが望ましいのですか?

Googlebot はどちらの指示にも従いますが、robots メタタグはページ毎に記述する必要があります。もしクロールされたくないページが多数ある場合は、robots.txt ファイルを使って一度にそれら複数のページへのアクセスをブロックできるようサイトを構成すると、設定が簡単になります(例えば、それらのページをひとつのディレクトリにまとめるなど)。

Robots.txt に、全ての検索エンジンのボット(クローラ)を対象にした記述と、Googlebot のみを対象にした記述が混在している場合、全ての検索エンジンを対象にした記述を Googlebot はどのように解釈するのですか?

あるサイトの robots.txt に、全てのボット向けの指示と、Googlebot に限定した指示の両方が含まれている場合、Googlebot は後者を優先します。

例えば、次のような記述の robots.txt ファイルがある場合、

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow: /cgi-bin/
Googlebot は、サイトの cgi-bin ディレクトリ以外のページを全てクロールします。

次のような記述の robots.txt ファイルがある場合は、
User-agent: *
Disallow: /
Googlebot は、サイトのページを一切クロールしません。

あなたのサイトの robots.txt ファイルを Googlebot がどのように解釈しているかは、ウェブマスターツールの robots.txt のテスト を使って確認することができます。また、robots.txt ファイルに変更を加えた場合、Googlebot がどのように解釈するようになるかについても、このツールで試すことができます。


Googlebot (や Google のその他のクローラ群)がどのように robots.txt を解釈するかについて、より詳しく知りたい方は ヘルプセンター をご参照下さい。


Google のインデックスからコンテンツを削除する方法

2009年6月12日金曜日 | 9:45

ウェブマスターの皆様は、サイトの管理者として、サイトのどのコンテンツが検索エンジンのインデックスに登録されているかについて、気を配られていることと思います。検索エンジンのインデックスに登録されたくないコンテンツについては、robots.txt ファイルか、robots メタタグを利用 して、インデックスされたくない旨を検索エンジンに伝えることができます ( 注: robots.txt でブロックされた URL のメタタグに noindex や noarchive を指定しても無効です。Google のクローラーはまず最初に robots.txt をチェックします。そこでアクセスが禁止されたページをクローラーは読み込みに行きませんので、そのページにあるメタタグの指定がクローラーに伝わりません ) が、では、すでにインデックスに登録されているコンテンツを削除したい場合は、どうしたらよいかご存知でしょうか? 今回は、Google のインデックスに登録されたコンテンツを削除する方法について、ご紹介します。

まず、その方法は、削除したいコンテンツの種類によって異なります。削除したいコンテンツの種類別の方法 が、 ウェブマスター向けヘルプセンターに詳しく記載されていますので、是非一度ご参照ください。該当する方法がとられたページは、次回クロール後に、インデックスから自動的に削除されます。ただ、もし希望されるのであれば、次のクロールまでじっと待つのではなく、削除までの時間を短縮する方法もあります。

ウェブマスターツールで 所有権の確認が済んでいるサイトについては、ウェブマスターツールにある「URL の削除」という運用ツールを利用して、インデックスからコンテンツを削除するためのリクエストを送信できます。「URL の削除」ツールのメイン画面から「新しい削除リクエスト」ボタンをクリックし、削除したいコンテンツの種類を選択してください。


個々の URL
個々の URL もしくは画像を削除したい場合は、この項目を選択してください。個々の URL の削除が正しく処理されるためには、その URL が下記のいずれかに該当する必要があります。


次に、削除の準備が整ったら、削除したい URL を入力し、その URL が、ウェブ検索に表示されているのか、それともイメージ検索に表示されているのかを選択してください。そして「追加」ボタンをクリックします。一回のリクエストで最大 100 URL まで追加することができます。削除したい URL をすべて入力したら「リクエストの送信」をクリックします。

サイト上のディレクトリとすべてのサブディレクトリ
特定のディレクトリ内にあるすべてのファイルやフォルダを削除したい場合は、この項目を選択してください。例えば、次の URL についての削除リクエストを送信するとします。

http://www.example.com/myfolder

このリクエストによって、このパスを先頭に持つすべての URL がインデックスから削除されます。

削除される URL 例:
http://www.example.com/myfolder
http://www.example.com/myfolder/page1.html
http://www.example.com/myfolder/images/image.jpg

ディレクトリの削除が正しく処理されるためには、robots.txt ファイルを利用し、そのディレクトリをブロックする必要があります。上で挙げた例に関しては、http://www.example.com/robots.txt に、例えば次のような次の記述が必要です。

User-agent: Googlebot
Disallow: /myfolder


サイト全体
Google のインデックスからサイト全体を削除したい場合は、この項目を選択してください。この項目が選択されると、サイトのすべてのディレクトリとファイルがインデックスから削除されます。使用するドメイン以外のドメインを持つ URL をインデックスから削除するのに、このツールは利用されないようお願い致します。具体例を挙げると、サイトの URL をすべて www 有りのバージョンでインデックスさせたい場合に、www 無しのバージョンを削除するために、このツールを利用しないでただきたいのです。そのような場合は、ウェブマスターツールの「使用するドメイン」で設定を行い、可能であれば、使用するドメインへの 301 リダイレクト 設定を行ってください。また、個々の URL やディレクトリの削除同様、「サイト全体」の削除をされる際には、robots.txt を使って、サイト全体をブロックする必要があります。

Google の検索結果のキャッシュ コピー
キャッシュを削除したい場合は、この項目を選択してください。また、キャッシュの削除が正しく処理されるためには、キャッシュの削除を希望するページに、次の 2 つのいずれかを行う必要があります。
  • Noarchive メタタグを適用する
そのページがキャッシュされることを今後一切望まないという場合は、noarchive メタタグを ページに追加したうえで、ツールを使って、キャッシュ削除のリクエストを送信します ( 注: 該当のページが robots.txt でブロックされていないことを確認してください )。このツールで送信されたキャッシュ削除のリクエストは、迅速に対応さ れます。そして、noarchive メタタグがそのページに追加されていれば、以後 Google がそのページをキャッシュすることはありません。もし、将来的に、改めてキャッシュされることを希望される際には、noarchive メタタグを取り除いていただければ再びキャッシュされるようになります。
  • ページの内容を更新する
すでに削除された内容を含むページがキャッシュされていて、そのキャッシュが残されていることを望まず、その古いバージョンのキャッシュを削除したい場合も、同様に URL 削除ツールからそのリクエストを送信することができます。最新のページの内容が、キャッシュされている内容と異なるかどうかがチェックされ、異なることが確認された場合は、古いバージョンのキャッシュが削除されます。この場合は、約 6 ヶ月後に、自動的に、またそのページのキャッシュが登録されるようになります。概して 6 ヶ月後には、再度クロールが行われているため、そのときに最新のコンテンツがキャッシュされます。もし、より早く Google がそのコンテンツを再度クロールしたことが確認され、それを待たずに再登録を希望される際には、同じく、このツールから、コンテンツの再登録リクエストを送信することも可能です。


削除リクエストのステータス確認
削除リクエストの処理はまず「保留中」と表示され、しばらくすると「完了」もしくは「拒否」のいずれかの結果が表示されます。「拒否」という結果が表示された場合は、削除リクエストが正しく処理されるための必要条件を満たしていたかを再度確認してください。


コンテンツの再登録
削除が正しく処理されると「削除されたコンテンツ」タブに URL がリストされます。コンテンツをブロックしていた robots.txt の記載を消すか、robots メタタグを削除したうえで、このツールにある再登録ボタンをクリックすれば、いつでもそのコンテンツの再登録は可能です。この作業が行われない場合は、少なくとも 90 日間、そのコンテンツは Google のインデックスに登録されません。90 日経過した後に、再度クロールを試みた際に、そのコンテンツがまだブロックされている、もしくは 404 か 410 を返している場合は、そのコンテンツは Google のインデックスに登録されません。逆に、90 日経過した後にクロールが可能な状態であった場合は、そのコンテンツは再び Google のインデックスに登録されます。


自分の管理下にないコンテンツの削除依頼
ご自身が管理しているサイト外のコンテンツの削除についても、ウェブページ削除リクエストツールをご利用いただきますと、同様のリクエストが送信できます。


ただ、Google はウェブをインデックスしていますが、各ページのコンテンツを管理しているわけではなく、各ページのコンテンツを管理しているのは、その各ページのウェブマスターなので、基本的には、そのウェブマスターがコンテンツをブロックもしくは変更するか、ページを削除しない限り、検索結果からそのコンテンツを削除することはできません。削除を希望するコンテンツがある場合、まず、そのコンテンツの管理者に対応してもらったうえで、このツールを使って検索結果から取り除くまでの時間を短縮することができます。

特定の種類の個人情報やクレジットカード番号などを含む検索結果を見つけた場合は、そのコンテンツの管理者の協力が得られなくても、このツールを使ってリクエストを送信することが可能です。その場合には、Google が直接皆さんと協力できるよう、メールアドレスの入力をお願いします。



また、このツールは、セーフサーチにおいて不適切な結果が返された際のご報告にも利用することができます。


ウェブマスターツール内の URL 削除ツール同様、「保留中」「完了」「拒否」など、リクエストのステータス確認もできます。基本的には、正しく削除の処理が行われるための必要条件を満たしていないと、リクエストは拒否されます。個人情報に関する削除リクエストのステータスは、ここには表示されません。代わりに、削除リクエストを行うに当たって必要な次のステップをご説明するメールが届けられます。

Google 検索エンジン最適化スターターガイド

2009年6月5日金曜日 | 9:45

本日、Google 検索エンジン最適化スターター ガイドの日本語版 (pdf) を公開致しました。内容は、昨年公開した Search Engine Optimization Starter Guide (英語) と同様です。英語版が出た際に、英語版ウェブマスターセントラルブログに掲載したアナウンスメントの抄訳とともに、紹介します。

フォーラムやカンファレンスなどで、ウェブマスターの方々からよくいただくのは、「どうしたら簡単に Google の検索結果におけるサイトのパフォーマンスは上げられるの?」というご質問です。その質問に対する答えにはとても色々な可能性があり、実際、インターネットには、検索エンジン最適化 (SEO) に関する情報が氾濫しているので、ウェブマスターになりたての方や、この話題にまだ馴染みのない方は、最初はびっくりしてしまうかもしれません。

サイトのクローラビリティやインデックスの状態を改善するうえで、参考になるベストプラクティスを紹介するガイドがあれば、ウェブマスターの方々や、 Google 社内の別のチームの仲間にも参考になるかもしれないと思い、このたび、Google 検索エンジン最適化スターター ガイドを作成しました。

この Google 検索エンジン最適化スターター ガイドは、 ウェブマスターがサイトの検索エンジン最適化を検討する際にチェックするであろう、13 の分野について取り上げています。例えば、title タグや description タグ、URL の構造、ナビゲーション、コンテンツ、アンカーテキストなどの改善についてです。経験値や、サイトの規模・種類に関わらず、全てのウェブマスターの方の参考になるように作りました。内容がより詳しく伝わるよう、図や、陥りがちな落とし穴、各種詳細資料へのリンクもたくさん盛り込んでいます。今後は、定期的にこのガイドを更新し、新たな最適化の提案や、最新の技術的なアドバイスを提供できるよう努めていきたいと考えています。

今度、「SEO 初心者なのですが、サイトをどう改善したらいいか教えてください」と聞かれたら、Google 社内でも活用している、この Google 検索エンジン最適化スターターガイドを紹介したいと思います。

2009/6/10 追記
PDF ファイルに誤植が見付かりましたので、修正しました。
ご教示くださった皆様、ありがとうございました。
ご不便をお掛けしましたことをお詫び申し上げます。

2010/9/27 追記
2010 年 9 月 27 日、検索エンジン最適化 ( SEO ) スターターガイドの最新版を公開しました。本記事中のリンクからも、最新版がダウンロードされます。