どうも、「きにぶろぐ.com」の自由に憧れるフリーマン(@free_manJJ)です。
ブログやサイトの投稿記事をGoogleの検索エンジンにちゃんとインデックスしてもらえるようにする為に、Googleサーチコンソールを利用されている方がほとんどではないでしょうか。
サーチコンソールはデータ分析にも非常に役立つので、確認する機会も多いのですがブログのクロールエラーの項目に「1 アクセスが拒否されました」という表示を発見。
今までにアクセスを拒否したことはありませんし、拒否する方法も知りませんでしたので、もしかすると正常にインデックスされていないんじゃないかと焦りました。
私と同じような経験をされた方の為に、サーチコンソールで発生したクロールエラーの原因と、内容を修正する方法をご紹介しますのでエラー対処の参考になればと思います。
クロールエラー403の原因
サーチコンソールでクロールエラーが発生している場合、URL エラーのところに「アクセスが拒否されました」と表示されています。
「クロールエラー」をクリックして内容を確認すると、エラーとなっている「URL」と「レスポンス コード 403」が表示されています。
「レスポンスコード」と「403エラー」とは
「レスポンスコード」とはHTTPにおいて、webサーバーからのレスポンスの意味を表す3桁の数字からなるステータスコードのことです。
ステータスコードは100番台~500番台まであり、各コードそれぞれに意味があります。
ステータスコード | |
100番台 | リクエスト情報処理中(Informational) |
200番台 | リクエスト処理成功(Success) |
300番台 | リダイレクト処理(Redirection) |
400番台 | クライアントエラー(Client Error) |
500番台 | サーバーエラー(Server Error) |
今回の「403エラー」はForbidden(閲覧禁止)を意味するコードでクライアントエラーになり、ページは存在するが管理者にしかアクセス権限がない為、他のアクセスが拒否されたこと示します。
対象のURLをクリックしてエラーの詳細を確認したところ、以下のように記載されていました。
Googlebot はサイトの URL をクロールできませんでした。サーバーでページにアクセスするのに認証が必須となっているか、サイトへの Googlebot によるアクセスがブロックされていることが原因です。
クロールエラー403となっているURLは、「wp-login.php」なのでワードプレスのログインページになります。
ログインする為には「ID」「パスワード」が必要なので、Googlebotがクロールできずにエラーが発生してしまったという訳です。
投稿記事に関しては正常にクロールできていることがわかったので、ひとまず安心です。
403エラーを修正する方法
ワードプレスのログインページまでクロールしてもらう必要はありませんし、403エラーをそのままにしておくと、今後何かの不都合に繋がったり検索エンジン上にも悪影響を与える可能性があるかもしれません。
なので、サーチコンソールで発生している403のクロールエラーを修正していきます。
エラーの修正はサーチコンソール内にある「robots.txt」ファイルを編集する必要があります。
「robots.txt」ファイルとは
「robots.txt」ファイルとは、検索エンジンのクローラーにアクセスされたくないページURLを指定することができるものです。
この「robots.txt」ファイルを使用する目的としては、他にもブログやサイト内で重要でないページや、重複するコンテンツページなどに対してアクセス制限をかけることにも使うことができます。
ただし、Google検索結果にwebサイトそのものを非表示にすることを目的に「robots.txt」を使用しないようにして下さい。
これは他のページに対象ページへのURLリンクがあると、「robots.txt」を経由せずともページがインデックス登録される可能性がある為です。
「robots.txt」の内容を修正
まずはサーチコンソールの管理画面から「クロール」⇒『robots.txt テスター』をクリックするとファイル内容が表示されます。
「robots.txt」ファイルの内容は登録状況によって少し異なっている可能性がありますが、基本的には上記内容が記載されているかと思います。
テキスト内の「Disallow」の部分がアクセスに制限をかけるものになります。
ここではワードプレスのログインページ「wp-login.php」へのアクセスを制限したいので、「Disallow: /wp-login.php」をテキスト内に追記します。
User-agent: * Disallow: /wp-admin/ Disallow: /wp-login.php Allow: /wp-admin/admin-ajax.php Sitemap: http://ブログURL/sitemap.xml.gz
内容を変更したら正常に機能するかチェックする為、下部の入力欄に対象URL「wp-login.php」を入力して『テスト』をクリックします。
その後、「テスト」が「ブロック済み」に変わり、追記した内容が赤く表示されていればアクセス制限ができている証拠です。
また、「Googlebot」というのはGoogleのクロールロボットのことで、基本はこのロボットがページを巡回しています。
テストが完了したので実際に変更した「robots.txt」を反映させる為、『送信』ボタンをクリックすると以下の項目が表示されるので、番号順に作業を進めていきます。
更新されたコードをダウンロード
項目1の『ダウンロード』をクリックして、パソコンに最新の「robots.txt」ファイルを保存したら、FTPソフトなどを使ってファイルをサーバーにアップロードします。
アップロード場所は主に対象のブログファイル内になりますので、「ブログURL」⇒「public_html」内に「robots.txt」ファイルをアップロードして下さい。
アップロードされたバージョンを確認
次に項目2の『アップロードされたバ…』をクリックし、「robots.txt」が新しいバージョンになっているか確認します。
ここでファイルの内容が変更されていない古いバージョンのままだった場合は、アップロード先が間違っている可能性があります。
その際は適切な場所に「robots.txt」をアップロードし直してから、再度確認を行うようにして下さい。
Google に更新をリクエスト
最後に項目3の『送信』をクリックして、Googleに最新の「robots.txt」ファイル情報を通知します。
「robots.txt テスター」ページを更新すれば、最新バージョンの内容に変更されていますので、今回追加したものが表示されているか確認しておきましょう。
これでサーチコンソールのクロールエラー403を修正する方法は以上となります。
Fetch as Googleでブロックの確認
サーチコンソールの「Fetch as Google」機能を使えば、Googleでどのように表示されているかをすぐに確認することができます。
管理画面の「クロール」⇒「Fetch as Google」から対象URLを入力して『取得』をクリックします。
すると結果が下に表示されますので、ステータスのところに「ブロック robots.txt テスター」と表示があれば、正常にブロックされていることが確認できます。
403エラーの表記は問題が検出された日付が更新されるか、自分で修正済みに変更することによって削除できますので、気になる場合は修正しておきましょう。
クロールエラー403のまとめ
サーチコンソールの「robots.txt」はあまり聞き慣れないものなので、使い方がわからない方も多いと思います。
今回はクロールエラーの403エラーでしたが、どんなエラーにしてもサーチコンソールで異常があると不安になるものです。
大した異常でなかったとしても、いずれ重大なトラブルに発展するかもわかりませんので、エラーを発見した時はしっかり修正するように心掛けることが大切ですね。