Code Monkey home page Code Monkey logo

interesting-python's Introduction

interesting-python: 有趣的Python爬虫和数据分析小项目

简介

可以用Python实现的有趣的小项目,内容包括Python爬虫、Python数据分析、机器学习、深度学习等,持续更新中。
本Repository主要用于存放项目代码,对应的项目文章可以关注公众号。

作者:Alfred
微信公众号:Alfred数据室(原名为Alfred在纽西兰)
合作请加微信号:AlfredLabAssistant


Alfred数据室课程

应诸位读者朋友的要求,Alfred数据室将陆续推出 《实战玩转数据科学》 系列课程,课程分为数据获取、数据分析、大数据分析三个部分,从如何获取数据、怎么分析数据、通过什么方法分析海量数据三方面带大家玩转数据分析。

数据获取部分子课程 《实战玩转Python爬虫》 现已正式上线。课程以目标为导向,从项目出发,十大案例掌握数据获取,让Python爬虫学习思路更清晰,路径更明确。详情可点击:实战玩转Python爬虫

可以扫描以下二维码进行课程咨询哦:


项目介绍

  1. LiveStreaming:
  • 内容: 爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条,并分析直播平台和游戏主播行业是否真如我们想象般的暴利
  • 对应微信公众号文章:《游戏直播行业真的如你想象般暴利?
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★★☆

  1. LaborDay:
  • 内容: 按全国各个城市抓取飞猪“景点门票”栏的景点门票销售数据,并且分析五一哪些景点会人挤人,哪些景点值得一去
  • 对应微信公众号文章:《五一不看人人人人人人,哪儿耍合适?
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★☆☆☆

  1. KrisWu:
  • 内容: 随机抓取吴亦凡发表《大碗宽面》微博的微博转发数据10万条,并分析该条微博的真假转发比例,以及大家对于这首歌的情感倾向如何
  • 对应微信公众号文章:《大碗宽面 VS 律师函警告,情感分析吴亦凡自黑式圈粉!
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. ESL:
  • 内容: 爬取外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,分析外教教师的招聘状况
  • 对应微信公众号文章:《没经验没学历的外教为啥能拿1.4W+的高薪?
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★☆☆☆☆

  1. ICU996:
  • 内容: 爬取程序员集体抵制996的Github热门项目996.ICU中,Issues页面讨论数据和点了star的程序员Github个人信息数据,并且分析这群抵制996的程序员都是何方神圣
  • 对应微信公众号文章:《大胆,都是哪些程序员在反对996?!
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★☆☆☆

  1. Paediatrician:
  • 内容: 爬取丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的生存处境
  • 对应微信公众号文章:《儿科医生的眼泪,全被数据看见了
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. CaiXuKun:
  • 内容: 随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像
  • 对应微信公众号文章:《用大数据扒一扒蔡徐坤的真假流量粉
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. BSGS_Rent:
  • 内容: 爬取北上广深四个城市的链家租房房源信息,并且分析四个城市的租房现状和考虑因素
  • 对应微信公众号文章:《北上广深租房图鉴
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. Fireworks_and_Pm2.5:
  • 内容: 爬取全国367个城市的空气质量指数数据,并分析烟花爆竹对空气质量的影响,以及城市禁放烟花爆竹是否有效
  • 对应微信公众号文章:《六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. TheWanderingEarth:

  1. Weibo_Comment_Pics:

  1. English_names:
  • 内容: 分析美国婴儿取名数据,为取英文名提供一些建议
  • 对应微信公众号文章:《看完这篇分析,楼下的Tony和Kevin都改名了!
  • 适合人群:Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. shixiseng_packet_capture
  • 内容:主要通过手机抓包分析和获取“实习僧”网站iso端的数据接口,有了接口便可以直接编写代码爬取数据
  • 对应微信公众号文章:《回复“实习僧”CTO之换种姿势爬取实习僧网站
  • 适合人群:Python爬虫学习者、手机抓包学习者
  • 难度:★☆☆☆☆

  1. PUBG-juediqiusheng-data_analysis

  1. Wechat_article_collector
  • 内容:微信公众号文章采集器,用于采集微信公众号文章并保存至word文档
  • 对应微信公众号文章:《50行代码教你打造一个公众号文章采集器
  • 适合人群:Python学习者、新媒体运营人群?
  • 难度:★★☆☆☆
  • 注:该项目由于依赖包WechatSogou疏于维护,目前暂时不能使用了。(2019-04-02 updated)

  1. mongoTV

  1. shixiseng:

支持作者

熬夜敲代码写稿件,咖啡才是第一生产力。

喜欢作者的分享,如何支持作者?

Maybe you could buy me a cup of coffee. Salute!

interesting-python's People

Contributors

alfred1984 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

interesting-python's Issues

运行错误报告?!

开始运行后,会不断弹出验证码,填完后会弹出这错误,需要如何调试?
UserWarning: style lookup by style_id is deprecated. Use style name as key instead.
warn(msg, UserWarning)

下载

你好,我想下载流浪地球的那个项目,但是下载不了

爬微博图片 minid是这个?好像不行

对应的手机网页端id是: html>

com.get_comments(max_page=20) File "/Users/huanleguo/Documents/interesting-python-master/Weibo_Comment_Pics/photo_clawler.py", line 85, in get_comments max_id = response.json()['data']['max_id'] # 找出下一页需要用的max_id File "/usr/local/lib/python3.7/site-packages/requests/models.py", line 897, in json return complexjson.loads(self.text, **kwargs) File "/usr/local/Cellar/python/3.7.5/Frameworks/Python.framework/Versions/3.7/lib/python3.7/json/__init__.py", line 348, in loads return _default_decoder.decode(s) File "/usr/local/Cellar/python/3.7.5/Frameworks/Python.framework/Versions/3.7/lib/python3.7/json/decoder.py", line 337, in decode obj, end = self.raw_decode(s, idx=_w(s, 0).end()) File "/usr/local/Cellar/python/3.7.5/Frameworks/Python.framework/Versions/3.7/lib/python3.7/json/decoder.py", line 355, in raw_decode raise JSONDecodeError("Expecting value", s, err.value) from None json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

cxk链接还能用

image

不知道怎么理解这个链接,打开就是ok=0。是不能用了吗?

'a' must be greater than 0 unless no samples are taken

In [22]:

15

data.sample(15)


ValueError Traceback (most recent call last)
in
----> 1 data.sample(15)

c:\users\administrator\appdata\local\programs\python\python37-32\lib\site-packages\pandas\core\generic.py in sample(self, n, frac, replace, weights, random_state, axis)
4863 "provide positive value.")
4864
-> 4865 locs = rs.choice(axis_length, size=n, replace=replace, p=weights)
4866 return self.take(locs, axis=axis, is_copy=False)
4867

mtrand.pyx in mtrand.RandomState.choice()

ValueError: 'a' must be greater than 0 unless no samples are taken

这是怎么回事啊?

Laborday

请问爬取到的json字段ticekts如果导入到MySQL数据库中还需要创建表格吗,用什么语句将ticekts插入到表格中?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.