Code Monkey home page Code Monkey logo

cs128_final_project's Introduction

词云展示

成果展示:

图1

图2

图3

图4

NLP相关流程:

分词->统计词频->建立词云

建立词云貌似有两种方式:一种是直接传入文本,另一种传入词和对应的出现次数(本项目使用第二种方式)

项目结构描述

├── README.md       // 描述文件
├── 中文词云.py     // 主函数文件/运行文件
├── 英文词云.py     // 主函数文件/运行文件
├── 改变背景.py     // 主函数文件/运行文件
├── 中文.txt        // 中文的数据文本 
├── xin.jpeg        // 所用背景图 
├── man.jpeg        // 所用背景图 
├── 哈工大停用词.txt// 哈工大停用词+自己添加部分停用词,好像没用上?
└── 英文.txt        //英文的数据文本

英文词云:

1、分词:大多数情况下以空格进行分割(本项目用的jieba)

2、处理停用词:本项目未处理

3、设计vocab:统计词频、排序

4、建立词云

中文文本:

1、分词:比英文复杂一点,往往采用jieba分词等工具进行分词(本项目使用jieba)

2、处理分词:相对于英语该部分比较少

3、设计vocab:统计词频、排序

4、建立词云

(其实没啥区别,不过建立中文词云需要设置字体,否则会是框)

文件介绍:

中文词云.py:最基本的词云(图1)

英文词云.py:最基本的词云(图2)

改变背景.py:更改形状和字体颜色的词云(图3、图4)

NLP相关流程:

分词->统计词频->建立词云

建立词云貌似有两种方式:一种是直接传入文本,另一种传入词和对应的出现次数(本项目使用第二种方式)

英文词云:

1、分词:大多数情况下以空格进行分割(本项目用的jieba)

2、处理停用词:本项目未处理

3、设计vocab:统计词频、排序

4、建立词云

中文文本:

1、分词:比英文复杂一点,往往采用jieba分词等工具进行分词(本项目使用jieba)

2、处理分词:相对于英语该部分比较少

3、设计vocab:统计词频、排序

4、建立词云

(其实没啥区别,不过建立中文词云需要设置字体,否则会是框)

cs128_final_project's People

Contributors

shengyuanwang avatar

Stargazers

 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.