Code Monkey home page Code Monkey logo

marketspider's Introduction

MarketSpider

Average time to resolve an issue Percentage of issues still open

Security Status

淘宝、京东、拼多多、1688、京喜信息爬虫。方便自动化的获取指定关键词的商品链接、商品价格、商品名称、店铺名称、店铺链接等信息。配合Tkinter的GUI界面,可以清晰监测运行状态。
不是专业程序员,仅为Python和web自动化爱好者,欢迎提供建议和程序改进!

免责声明

  1. 本程序仅供用于交流学习原理使用。禁止用于商业活动或其他非法用途。
  2. 对于被爬虫网站请遵守robots协议指引爬取数据。
  3. 对于不遵守以上规定的,程序编写者不承担任何责任。

快速指引

1、Python与Python包配置

  1. 正确安装Python3,建议安装Python3.8以上环境。
  2. (可选)建立Venv环境
  3. 在终端下运行pip install -r requirements.txt,安装所需包。

2、WebDriver配置

通过使用WebDriver,Selenium可以操作市场上主流浏览器。通过以下链接可以前往下载站点。下载后将其放置在本程序文件夹内即可。
注意需要使用与您浏览器安装版本相对应的WebDriver。
Google Chrome | MS Edge | Selenium-Install Drivers指引
程序默认使用Google Chrome浏览器,如果您需要使用其他浏览器,请按照下方指引更改代码。

  • 程序文件中的options = webdriver.ChromeOptions()更改为对应浏览器,如Edge则更改为options = webdriver.EdgeOptions()
  • 程序文件中的driver=webdriver.Chrome(options=options)更改为对应浏览器,如Edge则更改为driver=webdriver.Edge(options=options)

详细的指引可以参阅Selenium的Webdriver文档,点击此处跳转

3、启动对应程序开始使用

拼多多、京喜平台特别说明

拼多多、京喜平台因技术原因,使用半自动化方案,手动保存浏览器的请求,使用对应程序进行读取并保存成为CSV文件。无需使用Selenium环境。如何获取HAR文件可至HAR文件获取

文件功能和最新版本

文件名 最新版本和发布时间 用途
\ functions 自定义包
GetCookie.py 1.1
2023-4-18
用于自动化获取登录cookie
jdSpider.py 1.0
2022-7-28
京东商城爬虫程序
taobaoSpider.py 1.2
2024-4-22
淘宝网爬虫程序
1688Spider.py 1.0
2022-7-28
阿里巴巴1688爬虫程序
error.wav 错误提示音乐
requirements.txt pip依赖列表
jingxi_HAR_reader.py 1.0
2022-7-28
京喜HAR读取程序
pdd_HAR_reader.py 1.0
2022-7-28
拼多多HAR读取程序

使用教程

Github Wiki

marketspider's People

Contributors

zhangjiancong avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.