* context包简单的模拟了spring的IOC跟DI。
* crawler包实现具体的爬虫功能:通过解析自定义的爬虫规则,执行相应的操作。
1. 通过读取配置文件的crawler.url,自动获取规则文件。
2. 通过fastjson解析规则文件转成实体类。
3. JsonRuleAction通过解析的json实体,通过委派模式调用相应的action类执行相应的操作。
选择最新版本根据自己电脑的系统环境选择相应的压缩包下:下载地址。
此工具为免安装版,解压后就可以用,不需要安装。
- 根据
rule.json
里定义的规则和自己想爬取数据,编写自己的自定义规则. - 文件命名为网站的uri加上
.json
- 写好后放到rule文件夹里。
- 如果不会写,可以提到issues里。
- 打开
application.properties
, - 修改
application.properties
2.1 修改crawler.url
的值为自己想爬取的网页地址。
2.2 修改crawler.name
的值为自己下载文件文件的名称。
2.3 修改crawler.save.path
的值为自己下载文件保存的地址。
2.4crawler.chapter.start
为从此章节开始下载,值为标题的内容。
2.5crawler.chapter
为只下载此章节的内容,值为标题的内容。
2.6crawler.rule.path
为规则文件的地址,默认为当前文件夹下的rule文件夹。
2.7download.use.multithreading.enable
默认为true,如果为true则开启多线程模式,根据download.manga.thread.pool.size
,download.chapter.thread.pool.size
里的配置,下载的速度会比单线程高出很多。