- 1、 爬虫模块编写,支持pyquery、xpath、JavaScript、beautifulsoup、正则等多种解析模式,使用请查看上面中文文档;
- 2、 支持抓取各类日志保存,抓取日志、错误日志等各类日志信息;
- 3、 抓取起始链接可来自于Redis,只需提供Redis-key信息,不用额外编写;
- 4、 抓取信息持久化支持CSV、JSON、MYSQL、REDIS、KAFAKA、MONGODB等几大类常用持久化工具;
- 5、 该框架主要是几大模块的组合,至于爬虫逻辑的实现,根据个人需求。
|-Requests_Html_Spider |--目录文件
|--BaseFile |--基础配置
|---GetLocalFile.py |--读取本地文件,如URL
|---GetProxyIp.py |--获取代理IP
|---Logger.py |--配置logging日志
|---
ReadConfig.py |--读取配置文件
|---
UserAgent.py |--轮换请求头
|--Common |--公共操作类
|---CsvHelper.py |--操作CSV文件
|---JsonHelper.py |--操作JSON文件
|---KafkaHelper.py |--操作KAFKA文件
|---MongoHelper.py |--操作MONGODB文件
|---MysqlHelper.py |--操作MYSQL文件
|---RedisHelper.py |--操作REDIS文件
|--Config |--配置信息
|---HEADERS.py |--配置请求头
|---KAFKA |--KAFKA配置
|---MONGODB |--MONGODB配置
|---MYSQL |--MYSQL配置
|---PROXYIP |--代理IP配置
|---REDIS |--REDIS配置
|--Data |--文件存储目录
|--Logs |--Logs日志存储目录
|--Spider |--爬虫类
|---request_html_demo_1.py |--简书python爬虫教程抓取
|---request_html_demo_2.py |--爬取博客园新闻
|---request_html_demo_3.py |--爬取电脑高清壁纸库