Code Monkey home page Code Monkey logo

spiders's Introduction

Spider

环境说明:

  • Python3.6
  • Centos7.5
  • Scrapy框架 & 简单py爬虫

已实现功能:

  1. 爬虫 Scrapy 爬取百度网盘搜索引擎数据
  2. 自动将百度网盘资源转存到自己网盘
    1. 支持无提取码 URL
    2. 支持有提取码 URL

待完成项:

  • 优质代理 IP 池
  • 百度网盘自动保存资源 提取码-验证码问题
  • 暂不支持保存自己分享的资源
  • 代码优化

文件说明:

  • baiduyun_tools.py 自动转存百度云盘资料
  • file 存放自动转存百度云盘 信息
  • proxies_tools.py 自动生成代理文件
  • Spiders 爬取百度网盘搜索引擎资源
  • scrapy_mockplus_template Scrapy 爬虫,爬取 MockPlus 模板(待优化)

项目

  • Baiduyun
    • 查询 网盘搜索引擎 上百度云盘资源
    • 将云盘资源保存到百度网盘中
  • MockPLus
    • 自动获取 MockPlus 精美模板

爬虫项目

常用命令

scrapy startproject baidu
# 传递参数
scrapy crawl pansoso1 -a search_text=excel

百度网盘网站资源说明

通用参数说明:

  • mode 保存模式 append/override 建议 append
  • search_text 搜索内容
  • page 搜索页数

TODO override 存在 bug 后面覆盖前面的情况

盘搜搜(未完成)

网站资源一般,链接存在加密,存在访问过多时 IP 封锁.

网站链接: 网盘资源 www.pansoso.com

# 项目命令
scrapy crawl pansoso01 -a search_text=excel
scrapy crawl pansoso02
scrapy crawl pansoso03

搜百度盘(已完成)

说明:

  • 搜百度盘 网站简单,适合练手
  • 但是资源基本(99%)都是无效资源,无过多反爬虫机制.
  • 不建议使用此网站
# 项目命令
scrapy crawl sobaidupan01 -a search_text=excel  -a page=1000
scrapy crawl sobaidupan02

网站链接: 网盘资源 www.sobaidupan.com

大圣盘((已完成)建议)

说明:

  • 大多资源有效,且网站存在资源校验机制.
  • 资源分为无提取码和有提取码两种.
  • 资源文件都较大,且命名不规范,或非实际所需文件
  • 反爬虫机制
    • 延迟加载(提取码 & 提取码是否有效)
      • 解决方法: 使用 selenium(浏览器处理)

网站链接: 网盘资源 www.dashengpan.com

# 项目命令
scrapy crawl dashengpan01 -a mode=append -a search_text=excel -a page=1
scrapy crawl dashengpan02 -a mode=append # 需要在有UI界面的地方执行

百度云资源自动转存项目

项目详细说明:

  1. 支持功能
    1. 自动将 文件中 URL 保存到百度网盘中
    2. 支持有提取码和无提取码格式
    3. 对资源保存情况有整体说明等
  2. TODO 暂不支持
    1. 根据用户名称和密码自动登录获取 Cookie
    2. 部分资源有提取码时仍需要验证码,暂不支持
  3. 其他说明:
    1. 使用 Linux 测试,Windows 未测试
    2. 附件说明
      1. file/badidu_result.txt 存放百度云资料
      2. file/success.txt 存放保存成功的资源
      3. file/failed.txt 存放保存失败的资源

使用样例:

# 将网盘资源保存到百度网盘
python baiduyun_tools.py -filename xxxxx -cookie xxxxx -path xxxx

# 输出说明
success.txt 记录成功运行的 URL, 下次运行时不会在运行此中URL
failed.txt 记录失败的URL

参考图片 Spider_baiduyunpan_01

附件

参考链接

免责说明

  1. 非商业用途.
  2. 如有侵犯您的合法权益或违法违规,请提供相关有效书面证明与侵权页面链接联系我们进行删除。感谢您的支持

spiders's People

Contributors

fansichao avatar

Stargazers

 avatar  avatar

Forkers

ryanfu bbenliao

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.