Code Monkey home page Code Monkey logo

tieba-zhuaqu's Introduction

百度贴吧分布式爬虫


简介

该分布式爬虫可以抓取贴吧帖子内容并进行相关数据分析(详情见数据分析示例)。

目前该系统内部自带了4个插件用于数据分析,你可以给它贡献更多插件(插件由Python编写)

该爬虫系统主要由3部分组成:TaskManager任务管理服务器,KCrawlerManager用户端管理软件(KCrawlerController),Cralwer爬虫程序

在你继续往下读之前:

如果你只是简单的想使用这个软件爬取信息并加以分析,你需要下载以下文件:

tieba-zhuaqu:贴吧抓取主程序(请运行RunTest.bat)
KCrawlerControal:需要使用这个软件里面的数据分析模块

在开始之前请确认你已经安装python3.5以及后面提到的第三方库。

** 建议使用数据库版本(以DSV开头的)

** 注意:你需要将AttachImport文件下的ktieba文件夹放入C盘根目录,才能够正常运行。


语言及环境

Python3.5.1

C++

Visual Studio 2015

建议你安装64位的python,否则可能会出现memory error

文件结构

所有以DSV开头的文件夹代表其对应的数据库版本(Database Support Version)(默认为任务结果文件版本)

shareLib:系统组成三部分的共享库,定义报文,网络交互操作
task-manager:TaskManager任务管理服务器
tieba-zhuaqu:KCrawler爬虫主体
user-application:KCrawlerManager用户端管理软件KCrawlerController
DataAnalyzer:数据分析套件(从user-application中独立出来的)

数据库结构见下图:


第三方库

matplotlib:用于对数据进行可视化分析

numpy:用于对数据进行可视化分析

jieba中文分词:用于中文分词以及关键字提取


数据分析模块

**测试数据下载地址:http://pan.cuit.edu.cn/share/7FF9yiO5 (提取码:cm8p)

数据分析示例见文档末尾


开发状态

开发中...


授权条款:GPL

GPL


数据分析示例

目前自带的数据分析插件可以完成以下几种类型的分析:

对比统计多个词语(multiwords)

显示某个词语的词频-时间图(wordstimeline)

分析特定用户

分析某位用户的贴吧活跃度(userX)

分析某位用户的高频关键字(userX)

分析某位用户的贴吧活跃时间段(userX:通过叠加每日活跃时间段)

tieba-zhuaqu's People

Contributors

ankanch avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.