Code Monkey home page Code Monkey logo

undergraduate-innovation-program's People

Contributors

zihaolucky avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

undergraduate-innovation-program's Issues

文本相似度

这一块我们用文本相似度评价论坛的冗余

参考资料

这里的资料均来自52nlp

如何计算两个文档的相似度

这个话题,是作者在开发课程图谱网站(目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课)的时候遇到了如何为用户推荐课程的问题,并给出了以“课程相似度”为思路解决方案。

如何计算两个文档的相似度(一)

文中提到了一个Python工具包gensim(GitHub),并提到:

当前课程图谱中所有课程之间的相似度全部基于gensim计算,自己写的调用代码不到一百行,topic模型采用LSI(Latent semantic indexing, 中文译为浅层语义索引)

秉承学习的原则,我们有必要把这些资料都学习一下。以便更好地利用gensim。此文有以下几个知识点需要我们学习,在此列出来,方便大家。

  1. TF-IDF,余弦相似度,向量空间模型

LSI is based on the principle that words that are used in the same contexts tend to have similar meanings.

  1. SVD和LSI
  2. LDA

如何计算两个文档的相似度(二)

在学习掌握了基础知识以后,文章介绍了gemsim工具箱的安装和使用。

scarpy爬虫

只有热爱,才能感受到喜悦。

好久没跟大家联络了,此前我在GitHub上找到了一个抓取zhihu的工具。并联络了开发工具的master,他说这个工具可以抓取特定话题的top answer及其用户信息。具体请见Issues

其中使用的工具就是scrapy,一个用python语言写成的爬虫,其工作原理与GooSeeker类似,只不过需要我们用代码表明抓取的内容。我在想这个工具能否解决"下一页的问题"。

Wiki Repository

由于Wiki添加图片不方便,所以这里专门用于放置Wiki文档的图片

a

2013-08-21 7 50 58

shijian

galaxyv6

logo

[Assignments]网页内容抓取练习

以“地震”为关键字,以雅安地震为时间起始点,抓取两个平台(知乎、百度知道)上属于此话题的所有帖子的主题、内容。

主要工作:

  1. 以便做文本分析。包括“冗余度”的讨论,这一块我打算先用文本匹配、文本相似度来评判,看看这种简单方式能不能做得好。

文本分析、分词完成之后,利用社会网络方法建立网络图

  1. 社会网络分析。

猜想:(这个放到后面做)

  1. 事件、时间序列。事件发生后,两个平台出现类似话题讨论的频率/数目如何变化?

抓取用户关注者信息

我们在这里得到一些指引,目前发现的问题是console方法会占用比较多的内存,担心会出现溢出的状况。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.