聚集Python分布式爬虫必学框架Scrapy 打造搜索引擎
###学习流程
- 1.环境配置和基础知识铺垫
- 2.爬取真实数据
- 3.scrapy突破反爬虫技术
- 4.scrapy进阶
- 5.scrapy redis 分布式爬虫
- 6.elasticsearch django实现搜索引擎
###技术选型 scrapy vs requests+beautifulsoup
- 1.requests和beautifulsoup都是库,scrapy是框架
- 2.scrapy框架可以加入requests和beautifulsoup
- 3.scrapy基于twisted,性能是最大的优势
- 4.scrapy方便扩展,提供了很多内置的功能
- 5.scrapy内置的css和xpath selector非常方便,beautifulsoup最大的缺点就是慢
###爬虫能做什么
- 1.搜索引擎
- 2.推荐引擎
- 3.机器学习的数据样本
- 4.数据分析