Code Monkey home page Code Monkey logo

jza-123 / mark Goto Github PK

View Code? Open in Web Editor NEW

This project forked from zengxiao3p/mark

0.0 1.0 0.0 4.68 MB

本项目使用python3.5.2,使用scrapy作为爬取框架,主要爬取银行营销信息的爬虫项目,使用selenium模拟人工操作流程,包括保存登录信息cookies。 模拟人工操作规避ajax请求的动态渲染等问题,主要爬取银行官网,微信搜狗上银行的信息,微小宝上银行信息,银行标书中标易,剑鱼等的来源。使用mysql作为持久化保存数据。

License: Eclipse Public License 2.0

Python 15.57% TSQL 84.43%

mark's Introduction

介绍: 本项目使用python3.5.2,使用scrapy作为爬取框架,主要爬取银行营销信息的爬虫项目,使用selenium模拟人工操作流程,包括保存登录信息cookies。 模拟人工操作规避ajax请求的动态渲染等问题。mysql作为持久化保存数据。

主要爬取的银行如下: **银行 工商银行 农业银行 建设银行 交通银行 民生银行 广发银行 广州银行 招商银行 平安银行 浦发银行 邮储银行 农商行 中信银行 广大银行 华夏银行

主要爬取的来源如下: 1、银行官网 2、微信搜狗 3、微小宝。 4、银行标书(中标易,剑鱼)

本项目采用scrapy作为爬取框架,详细的框架的使用请详细参考:https://github.com/scrapy/scrapy,

采用spiders->middlewares->pipelines->items 流程处理爬取流程。 1、spiders 发出请求 2、middlewares 我的中间件预处理请求 3、pipelines 处理爬取完的信息 4、item 将保存的信息实体作为对象。

文件结构: biaoshu: 银行标书 weixinsougou: 微信搜狗 weixiaobao: 微小宝 其他: 按照银行拼音的各个银行官网信息

环境: windows 7/10 python3.5.2 谷歌浏览器 70.0.3538.110(正式版本) (64 位) mysql 5.5

运行使用: 1、首先保证含有python环境,本项目集成python3.5.2 2、安装编辑器,编辑本项目的时候使用pycharm。安装教程,自行谷歌 3、导入本项目,pip安装相应的依赖包,包括scrapy、selenium、pymysql, 4、本项目使用selenium,所以安装谷歌浏览器。以及相应的谷歌浏览器的驱动。 5、导入marking-spiders_back_4_26.sql 6、进入需要运行的文件夹(例如weixinsougou),修改相应的settings.py,包括mysql数据库账号和密码,或者其他参数。 7、运行相应模块的运行命令文件,例如:文件夹biaoshu/zby_start_biaoshu.py

注意

1、解决windows 命令行找不到pip命令的方法: 1)找到安装python.exe的文件夹 2)添加Script文件夹路径到环境变量当中。环境:C:\Users\user\AppData\Local\Programs\Python\Python35\Scripts

2、解决安装scrapy会出现不能安装问题,报出Twisted 版本的错误时: 1)手动安装Twisted-18.9.0-cp35-cp35m-win_amd64.whl文件即可解决 2)运行 pip install 你的路径\Twisted-18.7.0-cp37-cp37m-win_amd64.whl 参考:https://www.jianshu.com/p/a294a4b2bcde 参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

3、本项目使用selenium,所以安装谷歌浏览器。以及相应的谷歌浏览器的驱动。 参考:http://npm.taobao.org/mirrors/chromedriver/ 参考:https://blog.csdn.net/yoyocat915/article/details/80580066

注意

mark's People

Contributors

zengxiao3p avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.