agespider's Introduction

AGESpider

一个基于scrapy框架的爬虫脚本，对agefans.tv进行动漫的爬取，可将json数据存入数据库。

Usage

0.执行pip install -r requirements.txt 安装依赖。
1.可修改spider主文件中的开始年份与结束年份，默认爬取从2000-2020年间的动漫。
2.执行scrapy crawl AGE -o anime.json 获取动漫数据
3.根据需要，可修改settings中数据库的各项信息，执行sorting_data.py 将数据存入数据库

Log

2020.07.05
1.网站更改了百度云链接获取方式，需要添加Referer头。
2.似乎改成了使用js跳转，并且对js进行了加密(sojson.v5加密)，在打开控制台同时取消了js跳转，具体跳转逻辑尚不明确。
2020.09.14
1.修复了由于网站404页面更改而导致爬虫终止的bug。
2.减少了大量无效的请求
3.取消了代理，使用更加简单。
4.取消了获取百度云链接的功能，如需此功能，可以使用selenium从origin_url js跳转至download_url。可能会根据业余时间完成相应的转换脚本。
2020.10.12
1.从app中抓包的后端地址可以直接获取百度网盘地址。其中aid为动漫编号。
https://api.agefans.app/v2/detail/{aid}

Recommend Projects

zer0e / agespider Goto Github PK

agespider's Introduction

AGESpider

Usage

Log

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent