robots.txt
を読み取り、robots.txt
のルールに沿ったクローリングを行う
#154
Labels
Crawler
Crawler module
good first issue
Good for newcomers
help wanted
Extra attention is needed
priority: high
High Priority Issue
概要
robots.txt
とは、検索エンジンのクローラーに対して、サイトのどの URL にアクセスしてよいかを伝えるものである。robots.txt
を読み取り、robots.txt
のルールに沿ったクローリングを行う。方針
大きく二段階に分かれると考えられる。
robots.txt
の内容を取得し、ルールを理解するgrobotstxtのような
robots.txt
のパーサを利用する。robots.txt
に記載されている情報も活用してクロールするThe text was updated successfully, but these errors were encountered: