Spiders
通用爬虫(Generic Spider)
Scrapy内置了一些通用的爬虫基类,你可以通过继承这些基类来快速构建自己的爬虫。这些内置爬虫基类提供了许多常用功能,比如:通过指定的规则,sitemaps或者xml/csv格式的feed文件爬取网站的链接。
接下来的例子,假定你已经创建了scrapy项目,在items.py
中申明TestItem类:
import scrapy
class TestItem(scrapy.Item):
id = scrapy.Field()
name = scrapy.Field()
description = scrapy.Field()
CrawlSpider
class scrapy.spiders.CrawlSpider
大约 29 分钟