- オンライン
11/27水19:00〜20:00
クローリングとは、プログラムがWebサイトを巡回し、ページ上の情報を収集する技術のことだ。
クローリングは検索エンジンでも用いられている技術で、SEOを考える際には特に、「Googleのプログラム(Googlebot)がWebサイトを巡回し、サイト内の情報を収集すること」をクローリングと言う。
SEOにおけるクローリングとは |
Googleのプログラム(Googlebot)がWebサイトを巡回し、サイト内の情報を収集すること |
WebサイトやWebページが検索結果に表示されるためには、このGoogleのプログラムによるクローリングが行われる必要がある。
つまり、作成したコンテンツをユーザーに届けるために、あなたのサイトが適切にクローリングされることは非常に重要なのだ。
とはいえ、そのためにはクローリングがどういうものかをしっかりと理解した上で、然るべき方策を取る必要がある。
そこでこの記事では以下のことをご紹介する。
|
クローリングへの理解が深まり、SEO効果を高められるクローリング対策を実践できる内容となっている。
あなたのコンテンツを、よりユーザーに届けやすくするためにぜひ最後まで読んでみてほしい。
目次
まずは、クローリングがどういうものかをしっかりと理解しておこう。
そのためにここでは、クローリングの基礎知識をお伝えする。
冒頭でもお伝えした通り、クローリングとは、クローラーと呼ばれるプログラムがWebサイトを巡回し、ページ上の情報を収集する技術のことだ。
つまりクローリングは、Web上の情報を収集することを目的としている。
そう聞いてもどのように使われる技術なのかピンと来ないかもしれないが、実はクローリングは検索エンジンを含め以下のような用途で用いられている。
検索エンジン 市場調査 競合Webサイトのリサーチ アグリゲーションサイト |
このようにクローリングの技術は、Web上の情報収集が必要となる様々な局面で役立てられているのだ。
では具体的に、クローリングはどのようにして行われているのだろうか。
これは、クローリングのためのプログラムであるクローラーが行っていることを知ればイメージしやすくなる。
クローラーは、クローリングにおいて主に次の3つを繰り返し行っている。
<td”>Webサイト内のリンクを辿る等の方法で、次から次へとサイトやページを巡回する。
新たなページやコンテンツを発見して初めて巡回を行うこともあるし、すでに巡回したことのあるページにも繰り返し訪れる。
① Webサイトの巡回 |
Webサイト内のリンクを辿る等の方法で、次から次へとサイトやページを巡回する。 |
② 巡回先の情報を取得 |
巡回先のページでファイルを読み込み、情報を取得(ダウンロード)する。 |
③ データベースへの引き渡し |
情報をデータベースに登録するため、取得した情報の引き渡しを行う。 |
こうしたクローラーの働きによってクローリングが行われ、Web上の情報収集を可能にしているのだ。
すでにお伝えした通り、クローリングは検索エンジンでも用いられている。
例えば、Google検索は大まかに以下のような仕組みで成り立っている。
◆クローリング(クロールとも言われる) ◆インデックス登録 ◆検索結果の表示 |
このように、Web上のあらゆるサイトやページは、クローリングを経てインデックスに登録されることではじめて検索結果に表示されるようになる。
クローリングはこうした検索エンジンの仕組みの一部であり、あなたの作成したコンテンツをユーザーに見てもらうためには、まずはクローリングされることが欠かせないのだ。
クローリングとよく似た言葉に「スクレイピング」というものがある。
スクレイピングとは、不要な情報を削り取り重要な情報を抽出する技術のことを指し、特にWeb領域においては、クローリングで収集した情報から必要な情報だけを取得するために用いられる。
市場調査や競合Webサイトのリサーチ、アグリゲーションサイトのためにクローリングが行われる場合は、スクレイピングもセットで実施されるケースが多い。
そのため、クローリングとスクレイピングは混同されることもあるのだが、両者はそれぞれ別の目的を持った技術だ。
クローリングの目的 | Web上の情報収集 |
スクレイピングの目的 | 重要な情報の抽出 |
ただスクレイピングは、検索エンジンやSEOとは関連性の低い技術なので、ここではひとまずスクレイピングがクローリングとは異なる技術であるということを覚えておけばOKだ。
クローリングを行うクローラー(プログラム)には様々なものがある。
Webサイトの運用をされているなら<クローラー=Googlebot>というイメージをお持ちかも知れないが、実はGoogle以外の検索エンジンもクローラーは保有しているし、さらに言えば検索エンジン用以外のクローラーも存在する。
以下はその一例だ。
検索エンジン用のクローラー |
・Googlebot(Googleのメインクローラー) |
アグリゲーションサイト用のクローラー |
サイトテーマと合致する情報を他サイトから取得し、それらの情報をまとめて閲覧できるようにしたアグリゲーションサイトは、他サイトの情報を取得するために独自のクローラーを保有している場合もある。 |
ツールとして提供されているクローラー |
Web上の情報を収集・抽出・整理したい人のために、ツールとして提供されているクローラーもある。 |
このように、実は多様なクローラーが存在している。
ちなみに、すでにご存知かもしれないが、SEOの一環としてクローリング関連の施策を行う場合は基本的にGooglebotをその対象とすることになる。
※国内の検索エンジンシェアが、GoogleとGoogleの検索エンジンを活用するYahoo!Japanで9割以上を占めるため。
ここまでで、クローリングがどういうものか大体把握できたのではないだろうか。
ただ、Webサイトの運用担当者の方にはさらに、Googleにおけるクローリングについてもう少し詳しく知っておいていただきたい。
そこで、ここではGoogleのクローリングの仕組みについて以下のことをお話ししたいと思う。
|
これらは、Webサイトが適切にクローリングされるための施策の根拠となる部分なので、必ず事前に理解しておいて欲しい。
Webサイト(ページ)がクローリングされるためには、クローラーによってそのページが検出される必要がある。
Googleのクローラーは以下のような方法で、ページの検出を行っている。
・すでにインデックスされているページに記載されたリンクを辿る |
このことから、新たに作成したコンテンツがクローリングされるためには、
◎コンテンツページへのリンクが自サイト内や外部サイトに設置されている
◎XMLサイトマップをGoogleに(更新して)送信する
ことが重要であるとお分かりいただけるはずだ。
これらの具体的な方法については、「5. クローリングさせるための方法」や「6. クローリングを最適化するために行うべきこと」でご紹介するが、そうした施策の背景にはここで説明するGoogleのクローリングの仕組みが大きく関わっていることを理解しておいて欲しい。
Googleのクローラーは、Webサイトやページ上の次のようなファイルを取得することができる。
・HTMLファイル |
このように、WebサイトやWebページを構成する一般的なファイルは基本的に取得可能と考えて良い。
ただここで重要なのは、クローラーが情報の多くをテキストデータで読み込み、取得しているということだ。
画像や動画データも取得はするが、それが「どのような」画像・動画なのかを把握するためにはタグやコードなどのテキストデータを読み込む必要がある。
そのためGoogle側にコンテンツの内容を正確に伝えるためには、文章による説明や適切なタグの使用が重要なのだ。
これもクローリングに対する施策やその他のSEOを考える際に重要なポイントなので、しっかりと覚えておこう。
基本的にクローリングは高い頻度で行われることが望ましい。
というのも、1回のクローリングでページやコンテンツの全ての情報を読み取ってもらえるわけではないからだ。
そのため、あなたがユーザの役に立つ質の高いコンテンツを制作した際に、それを「とても良いコンテンツだ!」とGoogle側に把握してもらうためには何度もクローリングが行われる必要がある。
つまり、良質なコンテンツの制作は前提として、それをGoogleに正確に把握・評価してもらうために高頻度のクローリングが重要となるのだ。
クローリングの頻度は以下のような要素に左右されるため、クローリング関連の施策を行う際はこれらを念頭に置いておこう。
・サイトの人気度(被リンクの多さなど) |
Googlebotに対して運営するサイトへのクローリングを促し、さらに最適化することはSEO対策の一環と言える。
そもそもクローリングされなければWebサイトやコンテンツを検索結果に表示させることはできないし、クローリングの頻度が低いと良質なコンテンツを作成しても正当な評価を得づらいからだ。
そのため、「早速クローリングを促し、最適化させるための方法を実践していこう!」と言いたいところだが、もしもあなたがコンテンツの質を徹底的に追求できていないなら、まずはそちらを優先させなければならない。
コンテンツはユーザーの役に立つものでなければ意味が無いし、いくらクローリングが行いやすくても、ユーザーファーストを掲げるGoogleが質の低いコンテンツを検索上位に表示させることはない。
だから、良質なコンテンツ作りはSEO対策として真っ先に取り組んでおく必要があるのだ。
※もしもまだコンテンツの質の高め方を模索中だという場合は、先に『SEOコンテンツの作り方』をお読みいただくことをおすすめする。 |
一方で、もし「今まで質にこだわってコンテンツを作ってきた」というのであれば、ぜひ次のステップとしてクローリングの最適化に取り組んで欲しい。
あなたがユーザーのためにこだわって作成してきたコンテンツは、適切にクローリングが行われることで相応の評価を得やすくなるはずだ。
これまでの努力に見合う成果を得るために、この先で紹介することを早速実践していこう。
クローリングのための施策を実践する前後で、自サイトのクローリング状況を比較し効果を確認することは大切だ。
そこでまずは、クローリングの状況を確認する方法を3つご紹介しておく。
|
どれもクローリング状況を確認できる方法ではあるが、確認できる情報はそれぞれの方法で少しずつ異なっている。
そのため、全ての方法を実践して多角的な状況判断に役立てて欲しい。
サイト全体のクローリング状況を確認するにはSearch Consoleを使うと良い。
簡単な操作で概況を把握することができる。
まずは手順を説明しよう。
Search Consoleにアクセスし、左サイドのメニューから「設定」をクリックする。
以下のページが表示されるので、ページ中ほどの「レポートを開く」をクリックする。
すると、以下の指標がグラフで表示されるはずだ。
・クロールリクエストの合計数…1日あたりのクロール数(と捉えておこう) ・合計ダウンロードサイズ…クロール時に取得(ダウンロード)された合計バイト数 ・平均応答時間…クロール時に読み込まれたリソースの平均レスポンス時間 |
このうち、「クロールリクエストの合計数」はクローリング頻度を直接的に示す指標だ。
クローリングのための施策を行う上で、まずはこの「クロールリクエストの合計数」が、更新頻度やページ数の増加と共に右肩上がりになることを目指そう。
ページごとのクローリング履歴等、より細かいクローリング状況を確認するには、利用しているWebサーバーのアクセスログを見てみよう。
アクセスログとはWebサイトにどのようなアクセスがあったかを記録したログのことで、クローラーによるアクセスもこれに記録される。
確認手順はサーバーによって異なるので、以下のページを参考にして欲しい。
・Xserver ・ConoHa WING ・ロリポップ!レンタルサーバー ・さくらのレンタルサーバ ※この他のサーバーを利用している場合は「◯◯(サーバー名) アクセスログ」等で検索してみれば確認方法が見つかるだろう。 |
アクセスログを見てみると、以下のような文字列がひたすら並んでいるはずだ。
00.00.000~ – – [26/Aug/2022:01:35:43 +0900] “GET /category/seo HTTP/1.1″ 200 23139 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
このうち、クローリングの状況を知るために着目すべきなのが赤字の文字列で、それぞれ以下の内容を示している。
/category/seo Googlebot |
仮に1ヶ月間のアクセスログからこうした情報を集計すれば、その1ヶ月の間でどのページが何回クローリングされたかを把握することができる。
そうして把握したクローリング状況からは、次に行うべき施策の方針が見えてくる。
例えば、重要なコンテンツへのクロールが少ないことが分かれば、そのページに対するクローリング関連施策を見直す必要があるし、逆に上位表示させる必要のないページが頻繁にクローリングされているならそのページへのクローリングを制御する必要がある。
このように、サーバーのアクセスログを確認することで、より具体的な効果測定と次に取るべきアクションの検討が可能になるのだ。
さらに、Web上で利用できるツール、『Google Bulk Inspect URLs』を使うことで、各ページが直近でいつクローリングされたかを確認できる。
このツールは本来、複数のWebページのインデックス状況をまとめて調べるためのものだが、調査結果で「直近のクローリング日時」も表示してくれる。
早速使い方を見ていこう。
まず『Google Bulk Inspect URLs』にアクセスし、「1.authorize」をクリックする。
すると、Googleアカウントの選択画面が別窓で出てくるので、Search Consoleで使用しているアカウントを選択する。
アカウントの選択後、ツールからあなたのGoogleアカウントへのアクセスを求められるので、
①「確認済みサイトのSearch Consoleデータの表示です。」と書かれた欄のチェックボックスにチェックを入れ、
②下部の「続行」をクリック
して承認を行おう。
ここで、開いていた別窓が閉じる。Google Bulk Inspect URLsのウィンドウに戻ると「2.select property」の欄で、あなたが運用するWebサイトを選択できるようになっているはずだ。
Webサイトを選択したら、「3.enter one url per line and at least one url to check」の欄に、直近のクローリング日時を確認したいページのURLを入力する。(1行に1URLずつ入力)
※一応1日に2,000URLまでという制限があるので、それより多くのページについて確認したい場合は日を分けよう。
URLが入力できたら、「4.inspect URLs」をクリックし、調査を開始する。
しばらく待つと、下の方にページごとの調査結果が表形式で表示される。ひとまず操作はこれで完了だ。
表内の「last Crawl Time」の列から、各ページの直近のクローリング日時が確認できる。
また、大量のページについて調査を行い、結果を表計算ソフトなどで集計したい場合は、表の右上のエクスポートマークをクリックすればCSVかExcel形式でダウンロードすることも可能だ。
このように、複数ページの最終クローリング日時を確認することで、例えば以下のようなことをチェックできる。
◎当月中に公開したコンテンツの中でクローリングが漏れているものは無いか
◎クローリングがしばらく行われていない重要コンテンツは無いか
もしこれらに該当するようなコンテンツがあれば、「5. クローリングさせるための方法」の実践や、コンテンツのリライト・改善が必要になってくる。
次に行うべき施策の検討に非常に役立つはずなので、ぜひこの方法も実践しておこう。
ここからは、適切にサイトやページがクローリングされるための具体的な方法をお伝えしていく。
そのためにやるべきことは、
・クローリングを促す方法
・最適なクローリングをしてもらう方法
の2つに分類することができる。
ここではまず、クローリングを促す方法として、以下をご紹介する。
|
サイト自体がまだクローリングされていなかったり、クローリングされていないページがあるという場合はまずこうした方法から試してみよう。
まず、クローリングしてもらうための最も基本的な方法が自サイトのXMLサイトマップをGoogleに送信することだ。
XMLサイトマップとは、Webサイト内にどのようなページがあるかを検索エンジンに伝えるために設置するファイルのことで、これをSearch ConsoleからGoogleに送信するとクローラーが検出できていなかったサイトやページがクローリングされやすくなる。
また、サイト規模が大きくなるにつれてクローリング対象となるページも増えてくるはずだが、その際に、より重要なコンテンツをクローラーに伝えて効率的にクローリングしてもらうためにもXMLサイトマップは有効だ。
つまりXMLサイトマップを送信することは、クローリングを促す方法としても、最適なクローリングをしてもらう方法としても役立つ。
まだ行っていないなら、必ずやっておこう。
XMLサイトマップを送信するためには、
①XMLサイトマップを作成
②Search ConsoleからXMLサイトマップを送信
という手順が必要となる。
この詳しい手順については『XMLサイトマップとは?SEO効果や作成方法を分かりやすく解説』で説明しているので、こちらを参考にして欲しい。
Search Consoleの機能の一つである「URL検査」ツールを使うと、ページ単位でクローリングを促すことができる。
この機能では、個々のページのインデックス登録をリクエストできる。インデックスに登録されるためにはクローリングが必要となるため、インデックス登録をリクエストすることで自ずとクローリングも促せるのだ。
※URL検査ツールについてより詳しく知りたい場合は『Google URL検査ツールとは?適切にインデックスされているか確認しよう」に目を通しておこう。
詳しい手順は以下の通りだ。
まず、Search Consoleにアクセスし、クローリングしてもらいたいページのURLを画面上部の検索窓に入力する。
すると、まだクローリングされていないページなら次のような画面が表示されるので、右下の「インデックス登録をリクエスト」をクリックする。
次の画面が表示されていれば、インデックス登録のリクエストは完了だ。赤い下線の通り、クローリングも行われるはずだ。
検索上位に表示させたいにも関わらずクローリングされていないページがあれば、この方法でクローリングを促すことができる。
また、サイト全体のクローリングが活発ではない場合、新しいコンテンツを公開しただけではなかなかクローリングされないこともある。そういった場合にもこの方法でクローリングを要求すると良い。
他の方法に比べて優先度は低いが、すでにインデックス登録されている(検索結果に表示されている)状態の別サイトをお持ちなら、そのサイトにクローリングさせたいサイトへのリンクを設置するのも有効だ。
お伝えした通り、クローラーはすでにインデックスされているページに記載されたリンクを辿ってクローリングを行っている。
そのため、他サイトにリンクを設置することで、リンク先となるWebサイトがクローリングされる確率が高まるのだ。
基本的には先にご紹介した「XMLサイトマップの送信」と「Search ConosoleのURL検査ツール」でもクローリングを促すには充分だが、もし他にも運営しているWebサイトがあるならぜひリンクを設置しておこう。
※ただし運営している別サイトがペナルティを受けている場合は悪影響を受ける可能性があるため、この方法は行ってはいけない。
続いてここからは、最適な頻度でクローリングをしてもらうための方法をご紹介する。
クローリングを最適化するには、次のことを行うようにしよう。
|
重要なページへのクローリング頻度を落とさないために行うべきなのが「URLの正規化」だ。
TIPS! |
Googleは、単一のページに複数のURLが存在している場合、正規版と見なしたページ(URL)以外に対するクローリング頻度を減らしてしまう。
“単一のページに複数のURLでアクセスできる場合や、異なるページのコンテンツが類似している場合、Googleはそのようなページを同じページの重複版と見なします。Googleは、こうしたURLのうちの1つを「正規」版として選択してクロールします。その他のURLはすべて「重複」したURLと見なし、クロールの頻度を減らします。”
ー重複ページについて Google が適切な正規 URL を選択できるようサポートする(Google検索セントラル)より引用
このため、重要ページへのクローリング頻度を減らさないように、あなたが元々定めていたURLを正規URLとして指定し、そのURLが重複版ではないことを示す必要があるのだ。
そのための具体的な方法として次の4つがある。
・canonicalタグの設置 ・301リダイレクトの設定 ・alternateタグの設置 ・XMLサイトマップの設置 |
やり方や、どの方法を選ぶべきかについては『URLの正規化とは?具体的な方法と正規化すべきケースを解説』で詳しく説明しているので、こちらを参考に取り組んでみよう。
クローリングを最適化するためには、必要に応じてクローラーを制御することも重要だ。
クローリングはどんなページにも高頻度で行われるべき、というわけではないからだ。
特に規模が10,000ページを超える(見込みの)サイトでは、重要度の低いページに対してクローリングを行わないよう制御することで、重要なページが優先的にクローリングされるよう仕向けることができる。
そのようにクローリングを制御するための方法として、以下の2つが挙げられる。
・robots.txtの設置 ・nofollowの記述 |
重要度の低いページ(上位表示させる必要のないページ・404ページ等)へのクローリングをさせないためには、robots.txtを設置すると良い。
robots.txtとはサイトの一番上の階層に設置するテキストファイルのことで、クローラーに対して「このページはクローリングしてはいけない」という命令を記述することができる。
重要ではないページに不要なクローリングが行われているようなら、robots.txtを設置しておこう。
具体的な手順は『robots.txtとは?クロール拒否する方法・書き方・必要性を解説』で確認できる。
リンクを辿らせないことで不必要なクローリングを抑制するためにはnofollowの記述が有効だ。
nofollowは、HTMLファイルに記述するメタタグの一種で、クローラーに対して「このページにある全てのリンクを辿らない」または「ある一つのリンクを辿らない」ように指示することができる。
これは例えば、会員サイトのログイン以降のページや、ECサイトのショッピングカート以降のページをクローラーに辿らせないために使える。
記述方法は『nofollowの使い方』で説明しているので、「一定のページより先ではクローリングを行ってほしくない」という場合はぜひ参考にしてみてほしい。
あなたのサイト内を効率良くクローリングしてもらうためには、クローラーの助けやヒントとなるような内部リンクを設置しよう。
そのための方法として、以下の2つが挙げられる。
・クローラーの巡回経路となる内部リンクを設置する ・適切なアンカーテキストを設定する |
サイト内の別ページへ遷移できる内部リンクを設置することは、クローリングの効率向上に繋がる。
お伝えした通りクローラーはリンクを辿ってクローリングを行うため、回遊しやすいように内部リンクを設置することで、サイト内がスムーズにクローリングされやすくなるのだ。
適切な内部リンクの設置方法は『内部リンクとは?SEOでの重要性と効果が出る張り方のコツ』で確認しておこう。
内部リンクを設置する際にはアンカーテキストを適切に設定しよう。
アンカーテキストとは、以下のようなリンクが設定されたテキストのことだ。
サイト内の内部リンクのアンカーテキストが最適化されていれば、クローラーがサイトのテーマや階層構造を理解する手助けになる。
結果的にクローラーのサイト内での回遊性が上がり、効率的なクローリングに繋がるのだ。
そのためには、以下のことに気をつけてアンカーテキストを設定するようにしよう。
・リンク先の内容が分かる説明的なテキストにすること ・キーワードを含めること ・簡潔な内容にすること |
※アンカーテキストについてより詳しく知りたい場合は『アンカーテキスト最適化でSEO効果を高める3つのポイント』にも目を通してみよう。
サーバーの反応スピードを改善することもクローリングの効率を高める要素となる。
サーバースピードがスムーズなクローリングに影響を及ぼすことは、Googleのジョン・ミューラー氏の発言からもうかがえる。
“サーバースピードにおけるもう1つの側面は、クローリングに関係してくる。つまり、どのくらい速くサイトのページをクロールできるかだ。
直接的なランキング要因ではないが、サイト上の新しいコンテンツや更新されたコンテンツをどのくらい速やかに取得できるかに実際に影響してくる。”
こうしたことから、Search Consoleでクローリング状況を確認した際に、「平均応答時間」が数秒程度になっているようなら、サーバースピードの改善、つまりサーバーのスペックをアップさせることをおすすめする。
最後に、クローリングの最適化においても良質なコンテンツの作成が重要であることをお伝えしたい。
良いコンテンツはユーザーのためのものではあるが、ユーザーに喜ばれるコンテンツというのは結果的にクローリングにも良い影響を与えるのだ。
これはGoogleが、「サイトの人気度」がクローリングの頻度に影響を及ぼすとしていることからも明らかだ。
また、ユーザーの役に立つコンテンツは被リンクの獲得にも大きく貢献するはずだ。
被リンクにより、リンクを辿って行われるクローリングがさらに活性化することも期待できる。
このように、クローリングの最適化を考える上でも「コンテンツの質にこだわる」ことは徹底して欲しい。
クローリングがどのようなものかはお分かりいただけただろうか?
最後に繰り返すが、あなたの作成したコンテンツがユーザーの元に届くためにはクローリングされることが必須だ。
また、良質なコンテンツがきちんと相応の評価(=検索順位)を得るためにはクローリングが高頻度で行われることが重要だ。
そのため、これまで質にこだわってコンテンツ制作を行ってきた方にこそ、今回ご紹介したクローリングを促す方法や、最適なクローリングをしてもらう方法を実践して欲しい。
そのようなクローリング関連の施策を行うことで、あなたの努力の結晶である素晴らしいコンテンツが、ユーザーからもGoogleからも高い評価を得られるよう願っている。
広告に頼り切ったマーケティングの打開策としてコンテンツマーケティングについて調べているけれど、よく分からないと悩んでいませんか?
本書は弊社やクライアント様がコンテンツマーケティングに取り組み
など、コンテンツマーケティングの効果と、具体的な施策内容を全94ページに渡って詳細に解説しているものです。
ぜひ、貴社のWEBマーケティングにもご活用ください。