bouxin / company-crawler Goto Github PK

View Code? Open in Web Editor NEW

620.0 14.0 164.0 82 KB

天眼查爬虫&企查查爬虫，指定关键字爬取公司信息

License: MIT License

Python 100.00%

python3 web-spider ua proxy tianyancha qichacha

company-crawler's Introduction

天眼查、企查查公司信息爬虫

使用说明

设置用户状态

抓包工具抓包天眼查、企查查小程序，设置请求头用户鉴权信息，在各自目录的init.py文件中。可在此处配置随机UA，项目地址：fake_useragent

设置数据源

MYSQL_CONFIG = {
    'develop': {
        'host': '192.168.1.103',
        'port': 3306,
        'db': 'enterprise',
        'username': 'root',
        'password': 'root@123'
    }
}

执行db/data.sql生成数据结构
配置IP代理config/settings, 开启global proxy前请先自行部署ip代理池，项目地址：proxy_pool
```
# 全局代理控制, 
GLOBAL_PROXY = True
PROXY_POOL_URL = "http://localhost:5010"
```

设置爬取关键字qichacha&tianyancha

keys = ['Google'] # 设置爬取列表
crawler.load_keys(keys)
crawler.start()

Schedule List

功能	日期	状态	备注
鉴权Token提取		待完成
内置IP代理		待完成
防封策略		待完成
容器化运行		待完成

Please Kindly Note That

程序员技术交流tg群，欢迎大家加入！！！

内有技术交流！工作内推！远程工作！兼职、私活儿！！。

Telegram群链接：程序员社区https://t.me/+iZK2y8zMUiE0NDE1

群二维码：

company-crawler's People

Contributors

Stargazers

Watchers

Forkers

gaoxiang9457 kingking888 qsdj ruaxing xkcomeon zymitsky weileanjs shawnchou rangyaohe zhangguolei123 lie2believe zsmallpang ygs0087 skolly wyl-brucelong szjxlyj sn0wfree kuaixuesoft pengjinfu xmrio ywangzi jiyulongxu george191 xinxianren yxlspider codehgq wsso ehwilliamson deccccc khaofugui scrapyutilsdevteam u200915986 xuncl liuweiyibai sncu clayfx wenyuan0220 rorschach27 vigarbuaa a1198457636 blueroutecn jiuxun johnson7788 maxz88 wangroot evansye2 stone02111 haojiliang dmdaguan chenyucheng0503 bestjex smallpurebywu alansec miazzy yunwisdom cnbillow xunfeng324 gentletyphoon ivoidcat mo79571830 mukedada weide86 icysun isgasho 2217936322 forever-sky n1f2c3 chenanu123 niceduang ershijiu swliujr liweipython zhuyoucai168 leonwang7 maple3051 soulahan zpeng1989 dsahkl gangli-0814 yiruocici quinceylee fightx flydogyjz jessetsou qugemingzizhemefeijin huangzccn wutonghua jinxinxu yi9102 20111564 wuhu12222 cjimer albertyzhang jilvan1234 innovationb1ue kuang777 nocc winterwd fuyongmao spartanm

company-crawler's Issues

请问单个cookie请求次数上限如何解决？

程序中增加了配置表：存储多个cookie信息，当某个cookie失效后，从配置表获取新的cookie，但是程序使用新的cookie还是无法正常获取信息。
关于cookie这块有熟悉的朋友吗？

每次只能保存20条数据吗

我是个菜鸟，请教一下，我每次运行只能保存20条数据，如果想要多爬一点数据应该改哪个地方呢，谢谢！

寻求authorization和x-auth-token抓包方法

如题，有什么方法可以批量获取不同的authorization和x-auth-token字段呢

爬取的数据存不了mysql数据库

楼主，您好！修改了mysql相关的配置，执行程序的时候没有报错，但存不了数据库，请问是什么问题呢，希望得到帮助，谢谢

请问如何获得天眼查的AUTHORIZATION和X_AUTH_TOKEN

这两个字段是用于维护登录状态的，请问怎么获得呢？十分感谢！

请问导入数据库表并且修改了数据库的密码为什么不能导入到数据库

查看tianyancha/crawler.py第132行代码

Installation fails due to conflicting urllib3 version

Hi, users are unable to run webinfo-crawler due to dependency conflict with urllib3 package.
As shown in the following full dependency graph of webinfo-crawler, webinfo-crawler requires urllib3==1.25.2，while requests==2.21.0 requires urllib3>=1.21.1,<1.25.

According to pip’s “first found wins” installation strategy, urllib3==1.25.2 is the actually installed version.
However, urllib3==1.25.2 does not satisfy urllib3>=1.21.1,<1.25.

Dependency tree

webinfo-crawler-master
| +-dbutils(version range:==1.3)
| +-pymysql(version range:==0.9.3)
| +-redis(version range:==3.2.0)
| +-requests(version range:==2.21.0)
| | +-certifi(version range:>=2017.4.17)
| | +-chardet(version range:<3.1.0,>=3.0.2)
| | +-idna(version range:>=2.5,<2.9)
| | +-urllib3(version range:>=1.21.1,<1.25)
| +-urllib3(version range:==1.25.2)

Thanks for your help.
Best,
Neolith

请问专利详情页的接口地址和传参方式是什么，谢谢

如果能告诉我如何查找这个接口和传参方式也非常感谢

天眼查小程序更新加密了？

作者您好！不知道是不是天眼查更新加密了，我今天抓取的时候用抓包软件看到下面的提示，现在已经爬取不了了，这种情况是不是得伪造识别码，把小程序反编译出来，然后破解？求请问作者可以更新程序吗？如果可以的话，万分感谢🙏！祝好！

想爬全部数据需要vip会员

想爬全部数据需要vip会员。。。。

接口

请问从哪里查找对应功能的接口信息

组织了一些师兄弟还有网上的朋友围绕数据、算法进行积累（交易方向）求交流！

你好，我介绍一下情况：
组织了一些师兄弟还有网上的朋友围绕数据、算法进行积累（交易方向）
我们这种业余模式比公司还要强大，可以做很多创新的尝试！
目前股票已经在指导直接交易，其他策略也在继续推进中；
团队的大致方向是：
1、传统股票数据（在不断增加将来开源）；
2、crypto server（数据及下单）；
3、策略研究；
4、web 用户管理；
5、深度学习
一个人的力量有限、大家的力量无穷,感兴趣的朋友可以联系一下,谢谢！
我的微信：jtyd008
请备注：爬虫

作者可以建一个群进行交流吗

401了

token失效？

按照说明配置运行后，啥也没爬到

企查查中，走代理方式模拟应用登陆获取该token，小程序中是通过哪个接口请求到的这个token呀，抓包没有看到，求楼主解惑！

请问使用说明第一条在哪里改

请问怎么抓包最新版电脑端小程序呢？

2 问题

封号和字体解密，vip可不可以解？

【疑问贴】烦请各位不要随便开issue

有问题请在本issue里追问

刚更新这个搜不到数据

05/02/2019 12:52:39 crawler.py[line:45] INFO 开始搜索关键字[火锅]
05/02/2019 12:52:41 crawler.py[line:84] ERROR [tyc]api error, warn-无数据
05/02/2019 12:52:41 crawler.py[line:47] INFO 开始解析
05/02/2019 12:52:42 crawler.py[line:125] INFO no companies available
05/02/2019 12:52:42 crawler.py[line:49] INFO 数据已保存
05/02/2019 12:52:42 crawler.py[line:50] INFO 结束

天眼查抓取失败

01/10/2023 02:00:52 crawler.py[line:20] INFO 正在采集[谷歌]...
01/10/2023 02:00:52 crawler.py[line:20] INFO 正在采集[谷歌]...
Traceback (most recent call last):
File "/www/wwwroot/company-crawler-master/spider_venv/lib/python3.7/site-packages/urllib3/connection.py", line 175, in _new_conn
(self._dns_host, self.port), self.timeout, **extra_kw
File "/www/wwwroot/company-crawler-master/spider_venv/lib/python3.7/site-packages/urllib3/util/connection.py", line 95, in create_connection
raise err
File "/www/wwwroot/company-crawler-master/spider_venv/lib/python3.7/site-packages/urllib3/util/connection.py", line 85, in create_connection
sock.connect(sa)
ConnectionRefusedError: [Errno 111] Connection refused