Code Monkey home page Code Monkey logo

nlp_tanxin's Introduction

项目作业1

此项目包含了量大模块: 1. 分词工具的编写 2. 简单问答系统的编写

通过这些项目,目的是让学员深入理解核心的NLP技术和文本处理方面的知识点。每个项目已经提供了相应的数据集,和详细的注释。

数据集

  1. 综合类中文词库.xlsx: 包含了中文词,当做词典来用 (用于PART1)
  2. dev-v2.0.json: 这个数据包含了问题和答案的pair, 但是以JSON格式存在,需要编写parser来提取出里面的问题和答案。 (用于PART2)
  3. glove.6B: 这个文件需要从网上下载,下载地址为:https://nlp.stanford.edu/projects/glove/, 请使用d=100的词向量 (用于PART3)

环境:

Python 3 (必须要使用Python 3)

任务描述

分词工具编写

  • 利用枚举法来实现分词,也就是首先把所有可能的分词结果列出来,然后通过UNIGRAM模型来选择最好的分词结构(这部分的难点在于怎么生成所有的可能的分词结果)
  • 利用维特比算法来实现分词。这部分首先需要创建一个有向图,然后根据维特比算法来计算出最好的分词结果。这部分里的创建有向图和维特比部分需要一定的思考。

简单的问答系统编写

  • 文本的读取: 从JSON文件里读数据,并把文本写到问题变量和答案变量中(list)
  • 文本的预处理: 需要对原始文本做预处理操作,包括一些词的过滤
  • 文本的表示: 把文本转换成tf-idf格式/词向量,句子向量
  • 文本相似度计算: 利用余弦相似度来计算文本之间的相似度
  • 倒排列表:通过倒排列表来加快文档的检索

评分标准(Rubric)

具体评分详情,请见工程文件,每一个任务都有具体的分值(总分100)

时间截止

请参考 course-info的首页

nlp_tanxin's People

Contributors

gaoya-j avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.