ここから本文です

クローラー

ウェブページの巡回・収集を行うクローラーに関連する説明や、REP(Robots Exclusion Protocol)に従ったrobots.txtの設置方法などの解説。


クローラーによるウェブページの巡回と収集

このページでは、検索エンジンでウェブページの巡回・収集をするクローラーが、どのようにしてウェブページを見つけて巡回し、ウェブページの収集を行っているかを説明しています。

ロボッツ・エクスクルージョン・プロトコルとクローラー

サイト管理者は、ロボッツ・エクスクルージョン・プロトコル(Robots Exclusion Protocol=REP)に従って記述されたrobots.txtやメタタグの記述で、クローラーの巡回を制限できます。

サイト単位、ディレクトリ単位での巡回の拒否設定 1

このページでは、robots.txtを使ったクローラーの巡回の制限方法について、基本的な記述のルールやファイルの設置場所を実例とともに説明しています。robots.txtの記述方法や設置方法については、まずこのページをご覧ください。

サイト単位、ディレクトリ単位での巡回の拒否設定 2

このページでは、robots.txtを使ったクローラーの巡回の制限方法のうち、記述に関する拡張書式を実例とともに説明しています。「*」や「$」の正規表現記号を使うことで複数の指定をまとめられます。

リンク先のウェブページの巡回制限 ― rel属性の利用

ウェブページ内にある特定のリンク先ウェブページの巡回を制限する方法のうち、ブログのトラックバックスパムやコメントスパムを減らすという利点があるとされるrel="nofollow"属性について説明したページです。

リンク先のウェブページの巡回制限 ― ウェブページ内やサーバーでの設定

特定のリンク先ウェブページの巡回を制限する方法のうち、メタタグの記述やサーバーのHTTPヘッダーの設定による制限方法を説明しているページです。

動的に生成されるウェブページの巡回

このページでは、ウェブページのリンクが動的に生成される場合に、クローラーがどのようにページを巡回・収集するかを説明しています。

クローラー名(ユーザーエージェント名)の確認方法

クローラーのユーザーエージェント名で、挙動の不審なアクセスログが見られた場合の対応方法について説明しているページです。サーバー側でアクセス制限をする場合には、このページに記載されているドメインネームサーバー(DNS)を使ったアクセス制限をおすすめします。

削除したウェブページが巡回され続ける

このページでは、クローラーが削除したウェブページへの巡回を続けてしまう原因と対応方法について説明しています。

存在しないウェブページが巡回される

存在しないウェブページにクローラーがアクセスしているときの原因と対応について説明しています。