- 技术栈
- requests
- beautifulsoup4
- 主要功能
- 爬取新浪网2020年1月1日起至2021年10月31日的热榜数据,以及国内国外的热门新闻,总计约19w条
- 对数据进行预处理,包括,分词、去除停用词、取名词,去掉top3的词,去掉仅出现在一篇文章的词
- 将之前处理得到的词形成词典,并用词典重新表示每篇文章,得到文档的表示矩阵
- 实现tf-idf的计算
luckkann / dataproject Goto Github PK
View Code? Open in Web Editor NEWThis is a big data project from the data science and engineering course