所有项目仅用于学术研究,但因在**大陆频频出现爬虫开发者涉诉与违规相关的新闻
- 17K小说网
- BOSS直聘
- B站用户信息
- 斗鱼直播数据
- 豆瓣读书信息
- 京东商品数据
- 酷我音乐
- 上证快讯
- 网易云
- 淘宝商品
- 王者荣耀皮肤图片
- 使用requests库,来进行对网页的访问
- 使用lxml库来对HTML进行解析使用xpath来提取内容信息
- 使用pymysql库对数据库进行连接插入数据
- 使用xlwt库进行创建工作簿存储数据
使用的selenium自动化,因为网易云是动态通过xpath无法获取, xpath只针对静态页面
selenium同样也提供了find_elements_by_xpath的方法来获取到对应的元素
使用了mysql来存储数据,每分钟访问一次并提取最新的信息来写入数据库,这样方便提取,使用Excel存储不能进行
实时提取,存入MySQL可以一边查看爬取到的信息另一边又不会影响到程序的正常运行