Code Monkey home page Code Monkey logo

jiankaitian / autoinfoscraper Goto Github PK

View Code? Open in Web Editor NEW
5.0 1.0 1.0 9 KB

本项目是一个基于Python的自动化数据爬取应用,旨在从懂车帝网站(https://www.dongchedi.com )爬取汽车系列及其模型的详细信息和相关图片。整个项目分为两个主要部分:第一部分使用Selenium和BeautifulSoup库来爬取汽车系列的基本信息,并将其保存到CSV文件中;第二部分则利用requests和BeautifulSoup库对每个汽车系列下的模型进行深入爬取,获取更详细的信息和图片,并将这些数据分别保存到CSV文件和本地目录中。

Python 100.00%

autoinfoscraper's Introduction

懂车帝汽车信息爬取项目

项目概述

本项目旨在从懂车帝网站(https://www.dongchedi.com ) 爬取汽车系列及其模型的信息和相关图片。项目分为两大部分:首先使用Selenium和BeautifulSoup库爬取汽车系列的基本信息,并将这些信息保存到CSV文件中;然后,通过requests和BeautifulSoup库对每个汽车系列的模型进行深入爬取,获取模型的详细信息和图片,最终将图片保存到本地,并将模型信息存储到另一个CSV文件中。

环境依赖

本项目依赖以下Python库:

  • selenium
  • beautifulsoup4
  • pandas
  • requests
  • tqdm

请确保安装了Chrome浏览器和对应版本的ChromeDriver,并将ChromeDriver的路径添加到系统环境变量中。

使用方法

第一部分:爬取汽车系列信息

  1. 确保已经设置好Selenium环境,包括安装ChromeDriver。
  2. 运行第一部分的代码,此代码将自动打开懂车帝网站,通过模拟浏览器滚动来加载全部汽车系列的信息,然后提取并保存这些信息到car_list.csv文件中。

第二部分:爬取汽车模型信息及图片

  1. 在成功执行第一部分代码并生成car_list.csv文件后,运行第二部分的代码。
  2. 代码将读取car_list.csv中的汽车系列ID,对每个ID进行遍历,访问相应的URL来爬取每个系列下的汽车模型信息和图片。
  3. 每个模型的图片将被保存到images/{系列ID}/{模型ID}目录下,模型信息将被保存到models_info.csv文件中。

注意事项

  • 请在合法范围内使用此爬虫项目,遵守《懂车帝》网站的爬虫政策和相关法律法规。
  • 为避免给目标网站服务器带来不必要的负担,建议在爬取数据时适当增加等待时间。

代码结构

本项目包括以下主要文件和目录:

懂车帝汽车信息爬取项目/
│
├── car_list.csv - 存储从懂车帝网站爬取的汽车系列信息。
├── models_info.csv - 存储从懂车帝网站爬取的汽车模型信息。
│
├── images/ - 该目录下包含所有下载的汽车模型图片,按系列ID和模型ID组织。
│   ├── {系列ID}/
│   │   ├── {模型ID}/
│   │   │   ├── {系列ID}_{模型ID}_{图片编号}.jpg
│   │   │   └── ...
│   │   └── ...
│   └── ...
│
├── selenium_scraping.py - 使用Selenium和BeautifulSoup爬取汽车系列的脚本。
│
└── requests_scraping.py - 使用requests和BeautifulSoup爬取汽车模型信息及图片的脚本。

selenium_scraping.py

此脚本负责第一部分的爬取工作,主要步骤如下:

  1. 使用Selenium打开懂车帝网站,通过模拟浏览器滚动加载全部汽车系列的信息。
  2. 使用BeautifulSoup解析页面内容,提取汽车系列的ID和名称,并保存到car_list.csv文件中。

requests_scraping.py

此脚本负责第二部分的爬取工作,主要步骤如下:

读取car_list.csv文件,获取所有汽车系列的ID。 2. 对每个系列ID,构建对应的URL,使用requests访问并使用BeautifulSoup解析页面。 3. 提取每个系列下的汽车模型信息和图片URL,并下载图片到本地images/目录下。 4. 保存所有模型的信息到models_info.csv文件中。

运行项目

  1. 确保已安装所有依赖库。
  2. 首先运行selenium_scraping.py脚本来爬取并生成car_list.csv文件。
  3. 然后运行requests_scraping.py脚本,该脚本会读取car_list.csv中的数据,爬取各汽车模型的详细信息和图片,保存到models_info.csvimages/目录。

autoinfoscraper's People

Contributors

jiankaitian avatar

Stargazers

 avatar Arthur avatar Jerry_China_Pome avatar  avatar  avatar

Watchers

 avatar

Forkers

wangsw0793

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.