gaussic / text-classification-cnn-rnn Goto Github PK

View Code? Open in Web Editor NEW

4.1K 109.0 1.5K 717 KB

CNN-RNN中文文本分类，基于TensorFlow

License: MIT License

Python 98.44% Shell 1.56%

tensorflow cnn text-classification chinese classification rnn tensorboard

text-classification-cnn-rnn's Introduction

Text Classification with CNN and RNN

使用卷积神经网络以及循环神经网络进行中文文本分类

CNN做句子分类的论文可以参看: Convolutional Neural Networks for Sentence Classification

还可以去读dennybritz大牛的博客：Implementing a CNN for Text Classification in TensorFlow

以及字符级CNN的论文：Character-level Convolutional Networks for Text Classification

本文是基于TensorFlow在中文数据集上的简化实现，使用了字符级CNN和RNN对中文文本进行分类，达到了较好的效果。

文中所使用的Conv1D与论文中有些不同，详细参考官方文档：tf.nn.conv1d

环境

Python 2/3 (感谢howie.hu调试Python2环境)
TensorFlow 1.3以上
numpy
scikit-learn
scipy

数据集

使用THUCNews的一个子集进行训练与测试，数据集请自行到THUCTC：一个高效的中文文本分类工具包下载，请遵循数据提供方的开源协议。

本次训练使用了其中的10个分类，每个分类6500条数据。

类别如下：

体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

这个子集可以在此下载：链接: https://pan.baidu.com/s/1hugrfRu 密码: qfud

数据集划分如下：

训练集: 5000*10
验证集: 500*10
测试集: 1000*10

从原数据集生成子集的过程请参看helper下的两个脚本。其中，copy_data.sh用于从每个分类拷贝6500个文件，cnews_group.py用于将多个文件整合到一个文件中。执行该文件后，得到三个数据文件：

cnews.train.txt: 训练集(50000条)
cnews.val.txt: 验证集(5000条)
cnews.test.txt: 测试集(10000条)

预处理

data/cnews_loader.py为数据的预处理文件。

read_file(): 读取文件数据;
build_vocab(): 构建词汇表，使用字符级的表示，这一函数会将词汇表存储下来，避免每一次重复处理;
read_vocab(): 读取上一步存储的词汇表，转换为{词：id}表示;
read_category(): 将分类目录固定，转换为{类别: id}表示;
to_words(): 将一条由id表示的数据重新转换为文字;
process_file(): 将数据集从文字转换为固定长度的id序列表示;
batch_iter(): 为神经网络的训练准备经过shuffle的批次的数据。

经过数据预处理，数据的格式如下：

Data	Shape	Data	Shape
x_train	[50000, 600]	y_train	[50000, 10]
x_val	[5000, 600]	y_val	[5000, 10]
x_test	[10000, 600]	y_test	[10000, 10]

CNN卷积神经网络

配置项

CNN可配置的参数如下所示，在cnn_model.py中。

class TCNNConfig(object):
    """CNN配置参数"""

    embedding_dim = 64      # 词向量维度
    seq_length = 600        # 序列长度
    num_classes = 10        # 类别数
    num_filters = 128        # 卷积核数目
    kernel_size = 5         # 卷积核尺寸
    vocab_size = 5000       # 词汇表达小

    hidden_dim = 128        # 全连接层神经元

    dropout_keep_prob = 0.5 # dropout保留比例
    learning_rate = 1e-3    # 学习率

    batch_size = 64         # 每批训练大小
    num_epochs = 10         # 总迭代轮次

    print_per_batch = 100    # 每多少轮输出一次结果
    save_per_batch = 10      # 每多少轮存入tensorboard

CNN模型

具体参看cnn_model.py的实现。

大致结构如下：

训练与验证

运行 python run_cnn.py train，可以开始训练。

若之前进行过训练，请把tensorboard/textcnn删除，避免TensorBoard多次训练结果重叠。

Configuring CNN model...
Configuring TensorBoard and Saver...
Loading training and validation data...
Time usage: 0:00:14
Training and evaluating...
Epoch: 1
Iter:      0, Train Loss:    2.3, Train Acc:  10.94%, Val Loss:    2.3, Val Acc:   8.92%, Time: 0:00:01 *
Iter:    100, Train Loss:   0.88, Train Acc:  73.44%, Val Loss:    1.2, Val Acc:  68.46%, Time: 0:00:04 *
Iter:    200, Train Loss:   0.38, Train Acc:  92.19%, Val Loss:   0.75, Val Acc:  77.32%, Time: 0:00:07 *
Iter:    300, Train Loss:   0.22, Train Acc:  92.19%, Val Loss:   0.46, Val Acc:  87.08%, Time: 0:00:09 *
Iter:    400, Train Loss:   0.24, Train Acc:  90.62%, Val Loss:    0.4, Val Acc:  88.62%, Time: 0:00:12 *
Iter:    500, Train Loss:   0.16, Train Acc:  96.88%, Val Loss:   0.36, Val Acc:  90.38%, Time: 0:00:15 *
Iter:    600, Train Loss:  0.084, Train Acc:  96.88%, Val Loss:   0.35, Val Acc:  91.36%, Time: 0:00:17 *
Iter:    700, Train Loss:   0.21, Train Acc:  93.75%, Val Loss:   0.26, Val Acc:  92.58%, Time: 0:00:20 *
Epoch: 2
Iter:    800, Train Loss:   0.07, Train Acc:  98.44%, Val Loss:   0.24, Val Acc:  94.12%, Time: 0:00:23 *
Iter:    900, Train Loss:  0.092, Train Acc:  96.88%, Val Loss:   0.27, Val Acc:  92.86%, Time: 0:00:25
Iter:   1000, Train Loss:   0.17, Train Acc:  95.31%, Val Loss:   0.28, Val Acc:  92.82%, Time: 0:00:28
Iter:   1100, Train Loss:    0.2, Train Acc:  93.75%, Val Loss:   0.23, Val Acc:  93.26%, Time: 0:00:31
Iter:   1200, Train Loss:  0.081, Train Acc:  98.44%, Val Loss:   0.25, Val Acc:  92.96%, Time: 0:00:33
Iter:   1300, Train Loss:  0.052, Train Acc: 100.00%, Val Loss:   0.24, Val Acc:  93.58%, Time: 0:00:36
Iter:   1400, Train Loss:    0.1, Train Acc:  95.31%, Val Loss:   0.22, Val Acc:  94.12%, Time: 0:00:39
Iter:   1500, Train Loss:   0.12, Train Acc:  98.44%, Val Loss:   0.23, Val Acc:  93.58%, Time: 0:00:41
Epoch: 3
Iter:   1600, Train Loss:    0.1, Train Acc:  96.88%, Val Loss:   0.26, Val Acc:  92.34%, Time: 0:00:44
Iter:   1700, Train Loss:  0.018, Train Acc: 100.00%, Val Loss:   0.22, Val Acc:  93.46%, Time: 0:00:47
Iter:   1800, Train Loss:  0.036, Train Acc: 100.00%, Val Loss:   0.28, Val Acc:  92.72%, Time: 0:00:50
No optimization for a long time, auto-stopping...

在验证集上的最佳效果为94.12%，且只经过了3轮迭代就已经停止。

准确率和误差如图所示：

测试

运行 python run_cnn.py test 在测试集上进行测试。

Configuring CNN model...
Loading test data...
Testing...
Test Loss:   0.14, Test Acc:  96.04%
Precision, Recall and F1-Score...
             precision    recall  f1-score   support

         体育       0.99      0.99      0.99      1000
         财经       0.96      0.99      0.97      1000
         房产       1.00      1.00      1.00      1000
         家居       0.95      0.91      0.93      1000
         教育       0.95      0.89      0.92      1000
         科技       0.94      0.97      0.95      1000
         时尚       0.95      0.97      0.96      1000
         时政       0.94      0.94      0.94      1000
         游戏       0.97      0.96      0.97      1000
         娱乐       0.95      0.98      0.97      1000

avg / total       0.96      0.96      0.96     10000

Confusion Matrix...
[[991   0   0   0   2   1   0   4   1   1]
 [  0 992   0   0   2   1   0   5   0   0]
 [  0   1 996   0   1   1   0   0   0   1]
 [  0  14   0 912   7  15   9  29   3  11]
 [  2   9   0  12 892  22  18  21  10  14]
 [  0   0   0  10   1 968   4   3  12   2]
 [  1   0   0   9   4   4 971   0   2   9]
 [  1  16   0   4  18  12   1 941   1   6]
 [  2   4   1   5   4   5  10   1 962   6]
 [  1   0   1   6   4   3   5   0   1 979]]
Time usage: 0:00:05

在测试集上的准确率达到了96.04%，且各类的precision, recall和f1-score都超过了0.9。

从混淆矩阵也可以看出分类效果非常优秀。

RNN循环神经网络

配置项

RNN可配置的参数如下所示，在rnn_model.py中。

class TRNNConfig(object):
    """RNN配置参数"""

    # 模型参数
    embedding_dim = 64      # 词向量维度
    seq_length = 600        # 序列长度
    num_classes = 10        # 类别数
    vocab_size = 5000       # 词汇表达小

    num_layers= 2           # 隐藏层层数
    hidden_dim = 128        # 隐藏层神经元
    rnn = 'gru'             # lstm 或 gru

    dropout_keep_prob = 0.8 # dropout保留比例
    learning_rate = 1e-3    # 学习率

    batch_size = 128         # 每批训练大小
    num_epochs = 10          # 总迭代轮次

    print_per_batch = 100    # 每多少轮输出一次结果
    save_per_batch = 10      # 每多少轮存入tensorboard

RNN模型

具体参看rnn_model.py的实现。

大致结构如下：

训练与验证

这部分的代码与 run_cnn.py极为相似，只需要将模型和部分目录稍微修改。

运行 python run_rnn.py train，可以开始训练。

若之前进行过训练，请把tensorboard/textrnn删除，避免TensorBoard多次训练结果重叠。

Configuring RNN model...
Configuring TensorBoard and Saver...
Loading training and validation data...
Time usage: 0:00:14
Training and evaluating...
Epoch: 1
Iter:      0, Train Loss:    2.3, Train Acc:   8.59%, Val Loss:    2.3, Val Acc:  11.96%, Time: 0:00:08 *
Iter:    100, Train Loss:   0.95, Train Acc:  64.06%, Val Loss:    1.3, Val Acc:  53.06%, Time: 0:01:15 *
Iter:    200, Train Loss:   0.61, Train Acc:  79.69%, Val Loss:   0.94, Val Acc:  69.88%, Time: 0:02:22 *
Iter:    300, Train Loss:   0.49, Train Acc:  85.16%, Val Loss:   0.63, Val Acc:  81.44%, Time: 0:03:29 *
Epoch: 2
Iter:    400, Train Loss:   0.23, Train Acc:  92.97%, Val Loss:    0.6, Val Acc:  82.86%, Time: 0:04:36 *
Iter:    500, Train Loss:   0.27, Train Acc:  92.97%, Val Loss:   0.47, Val Acc:  86.72%, Time: 0:05:43 *
Iter:    600, Train Loss:   0.13, Train Acc:  98.44%, Val Loss:   0.43, Val Acc:  87.46%, Time: 0:06:50 *
Iter:    700, Train Loss:   0.24, Train Acc:  91.41%, Val Loss:   0.46, Val Acc:  87.12%, Time: 0:07:57
Epoch: 3
Iter:    800, Train Loss:   0.11, Train Acc:  96.09%, Val Loss:   0.49, Val Acc:  87.02%, Time: 0:09:03
Iter:    900, Train Loss:   0.15, Train Acc:  96.09%, Val Loss:   0.55, Val Acc:  85.86%, Time: 0:10:10
Iter:   1000, Train Loss:   0.17, Train Acc:  96.09%, Val Loss:   0.43, Val Acc:  89.44%, Time: 0:11:18 *
Iter:   1100, Train Loss:   0.25, Train Acc:  93.75%, Val Loss:   0.42, Val Acc:  88.98%, Time: 0:12:25
Epoch: 4
Iter:   1200, Train Loss:   0.14, Train Acc:  96.09%, Val Loss:   0.39, Val Acc:  89.82%, Time: 0:13:32 *
Iter:   1300, Train Loss:    0.2, Train Acc:  96.09%, Val Loss:   0.43, Val Acc:  88.68%, Time: 0:14:38
Iter:   1400, Train Loss:  0.012, Train Acc: 100.00%, Val Loss:   0.37, Val Acc:  90.58%, Time: 0:15:45 *
Iter:   1500, Train Loss:   0.15, Train Acc:  96.88%, Val Loss:   0.39, Val Acc:  90.58%, Time: 0:16:52
Epoch: 5
Iter:   1600, Train Loss:  0.075, Train Acc:  97.66%, Val Loss:   0.41, Val Acc:  89.90%, Time: 0:17:59
Iter:   1700, Train Loss:  0.042, Train Acc:  98.44%, Val Loss:   0.41, Val Acc:  90.08%, Time: 0:19:06
Iter:   1800, Train Loss:   0.08, Train Acc:  97.66%, Val Loss:   0.38, Val Acc:  91.36%, Time: 0:20:13 *
Iter:   1900, Train Loss:  0.089, Train Acc:  98.44%, Val Loss:   0.39, Val Acc:  90.18%, Time: 0:21:20
Epoch: 6
Iter:   2000, Train Loss:  0.092, Train Acc:  96.88%, Val Loss:   0.36, Val Acc:  91.42%, Time: 0:22:27 *
Iter:   2100, Train Loss:  0.062, Train Acc:  98.44%, Val Loss:   0.39, Val Acc:  90.56%, Time: 0:23:34
Iter:   2200, Train Loss:  0.053, Train Acc:  98.44%, Val Loss:   0.39, Val Acc:  90.02%, Time: 0:24:41
Iter:   2300, Train Loss:   0.12, Train Acc:  96.09%, Val Loss:   0.37, Val Acc:  90.84%, Time: 0:25:48
Epoch: 7
Iter:   2400, Train Loss:  0.014, Train Acc: 100.00%, Val Loss:   0.41, Val Acc:  90.38%, Time: 0:26:55
Iter:   2500, Train Loss:   0.14, Train Acc:  96.88%, Val Loss:   0.37, Val Acc:  91.22%, Time: 0:28:01
Iter:   2600, Train Loss:   0.11, Train Acc:  96.88%, Val Loss:   0.43, Val Acc:  89.76%, Time: 0:29:08
Iter:   2700, Train Loss:  0.089, Train Acc:  97.66%, Val Loss:   0.37, Val Acc:  91.18%, Time: 0:30:15
Epoch: 8
Iter:   2800, Train Loss: 0.0081, Train Acc: 100.00%, Val Loss:   0.44, Val Acc:  90.66%, Time: 0:31:22
Iter:   2900, Train Loss:  0.017, Train Acc: 100.00%, Val Loss:   0.44, Val Acc:  89.62%, Time: 0:32:29
Iter:   3000, Train Loss:  0.061, Train Acc:  96.88%, Val Loss:   0.43, Val Acc:  90.04%, Time: 0:33:36
No optimization for a long time, auto-stopping...

在验证集上的最佳效果为91.42%，经过了8轮迭代停止，速度相比CNN慢很多。

准确率和误差如图所示：

测试

运行 python run_rnn.py test 在测试集上进行测试。

Testing...
Test Loss:   0.21, Test Acc:  94.22%
Precision, Recall and F1-Score...
             precision    recall  f1-score   support

         体育       0.99      0.99      0.99      1000
         财经       0.91      0.99      0.95      1000
         房产       1.00      1.00      1.00      1000
         家居       0.97      0.73      0.83      1000
         教育       0.91      0.92      0.91      1000
         科技       0.93      0.96      0.94      1000
         时尚       0.89      0.97      0.93      1000
         时政       0.93      0.93      0.93      1000
         游戏       0.95      0.97      0.96      1000
         娱乐       0.97      0.96      0.97      1000

avg / total       0.94      0.94      0.94     10000

Confusion Matrix...
[[988   0   0   0   4   0   2   0   5   1]
 [  0 990   1   1   1   1   0   6   0   0]
 [  0   2 996   1   1   0   0   0   0   0]
 [  2  71   1 731  51  20  88  28   3   5]
 [  1   3   0   7 918  23   4  31   9   4]
 [  1   3   0   3   0 964   3   5  21   0]
 [  1   0   1   7   1   3 972   0   6   9]
 [  0  16   0   0  22  26   0 931   2   3]
 [  2   3   0   0   2   2  12   0 972   7]
 [  0   3   1   1   7   3  11   5   9 960]]
Time usage: 0:00:33

在测试集上的准确率达到了94.22%，且各类的precision, recall和f1-score，除了家居这一类别，都超过了0.9。

从混淆矩阵可以看出分类效果非常优秀。

对比两个模型，可见RNN除了在家居分类的表现不是很理想，其他几个类别较CNN差别不大。

还可以通过进一步的调节参数，来达到更好的效果。

预测

为方便预测，repo 中 predict.py 提供了 CNN 模型的预测方法。

text-classification-cnn-rnn's People

Contributors

Stargazers

Watchers

Forkers

wang1219 junfengduan incenter2016 afcentry huangjiu ycsuperlife yuxuan88 ma78794656 zs167275 tongzhenguo kingjci jammy112 luoyexuge yinboblue git2191866109 flyhigher1983 ginhit bettercourses badbubble antdlx sunnymarkliu chaidong chosenone75 fendouai jameslin2014 haonanli yanglijun960703 sxxazzt ventionzong bowin zhoumaning lvyli buptzp xiaoguozhi vino5211 allensmile zephyrzqf fendaq zwb195 lgcming wwwanghao hundred06 iamsile lia-git lakezhang jiayingjie92 chenwenhuan huyuxiang ajoeajoe xxning felixdae daniel-007 wxywxyyxw xiayanchen hanwei2008 fjibj hongkonge citysir orangefishzz songyandong mars1943 lcy081099 a382695908 darcy0511 zhangcg1987 czu32 mittlin zwhinmedia cjmmya hieast alexyoung757 siltommcat itonly gonewithgt chenleizhao coninx maxmon zlg358 karlyang2013 berryhn renlang97 michaelshing roshanraj tyouxj zhangjiulong henryflee kodakfu kummar ifhubs yanlei03 zhangyue258 l-seven eight-corner zjccnu zhongkailv li73 michaelwangtd 1741581 winnerineast lihongzheng-nlp

text-classification-cnn-rnn's Issues

一个疑问

在cnn_model.py 中gmp = tf.reduce_max(conv, reduction_indices=[1], name='gmp')
请问这行可以实现 global max pooling layer吗？这个不是Computes the mean of elements across dimensions of a tensor吗？看了dennybritz写的，用了tf.nn.max_pool。麻烦您给解答，拜托了。

報錯問題

你好
我在執行到
Training and evaluating...
Epoch: 1
之後運行過程中出現
File "C:\Anaconda3\lib\site-packages\tensorflow\python\client\session.py", line 1096, in _run
% (np_val.shape, subfeed_t.name, str(subfeed_t.get_shape())))
ValueError: Cannot feed value of shape (128, 8) for Tensor 'input_y:0', which has shape '(?, 10)'

我在train data換成8個分類，read_category、num_classes = 8 都已經更改了
请問怎麼解決這個問題？

謝謝

另外
有時候還會出現
ValueError: Variable embedding already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? Originally defined at:

File "C:\Anaconda3\lib\site-packages\tensorflow\python\framework\ops.py", line 1470, in init
self._traceback = self._graph._extract_stack() # pylint: disable=protected-access
File "C:\Anaconda3\lib\site-packages\tensorflow\python\framework\ops.py", line 2956, in create_op
op_def=op_def)
File "C:\Anaconda3\lib\site-packages\tensorflow\python\framework\op_def_library.py", line 787, in _apply_op_helper
op_def=op_def)

請問要怎麼解決呢
感謝

Convolutional Neural Networks for Sentence Classification

请问一下，您的这个代码是基于 Yoon Kim的论文《Convolutional Neural Networks for Sentence Classification》实现的吗？

不使用字符级别的将如何修改

初学者想请教下，您的程序是使用了字符级的CNN（Character-level Convolutional Networks for Text Classification），请问若是想实现Convolutional Neural Networks for Sentence Classification论文中的实验，应该如何进行修改呢？

能实现给出一段新闻然后算法直接给出预测吗，现在得实现还要给出一个自己的预测

本人是机器学习新手，楼主能给出点思路吗，谢谢了

请问您的运行结果中的precision是准确率还是精确率

TP: 将正类预测为正类数 40
FN: 将正类预测为负类数 20
FP: 将负类预测为正类数 10
TN: 将负类预测为负类数 30
准确率= 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%
精确率= TP/(TP+FP) = 80%
召回率= TP/(TP+FN) = 2/3
请问您的运行结果中的precision是准确率还是精确率？如果是准确率，按照定义，同一类中准确率和召回率应该是相等的，感谢您的回复

运行run_epoch.py时报错

您好，我打算复现一下您的程序，但是当运行run_epoch.py文件时，程序报错：
ImportError: No module named data.cnews_loader
我看了您的程序里面确实没有这个模块，我应该怎么办呢？谢谢啦
还有，顺带问一下，cnews_loader.py后面的main函数为什么要注释掉呢？
（自然语言处理刚入门，还望您解答一下，再次感谢！！！）

predict文件使用

请问predict文件如何使用？运行得到的是random结果，模型已经训练完毕

同一类的召回率怎么算的？

为什么同一类的准确率和召回率不一样？就比如你cnn的运行结果，财经类准确率96，召回率99

能否在源码中增加一个类似predict的这样的方法？

楼主，能否在源码中增加一个predict这样的预测一句话的分类的方法呢？（实在是自己小白一枚，而test方法又看不太懂，输出结果也不是很理解）所以如果楼主有时间的话，能否在源码中增加这样一个方法，接收一句话，输出该句话的分类。（打扰，万分感谢。）

大哥，方便留个联系方式吗？想请教一点问题

我想确定下，这例子是不是属于深度学习里面的有监督学习？

关于cnews.test.txt

把cnews.test.txt中只置换为一条科技新闻

python run_cnn.py test 进行训练给出的结果是体育。

再添加其他类别的新闻:

我是个新手，在这上面挺困惑的

模型使用

您好，我还有一个问题，就是您这个只是一个训练模型的过程，但是您并没有把模型保存下来进行使用，对吧？其实就是关于这个模型已经训练好了，但是我有新打数据来洛，我该在哪儿对模型进行使用呢？
还有就是，那个词嵌入那儿，您使用的是什么方法呢？word2vec，还是one-hot呀？那里没太看懂，谢谢！！

程序不能正常执行

在尝试运行程序时，出现了下面的问题：

D:\Anaconda\envs\tensorflow\python.exe G:/project/python/pycharm/RNN-CNN/run_cnn.py
Traceback (most recent call last):
  File "G:/project/python/pycharm/RNN-CNN/run_cnn.py", line 178, in <module>
    raise ValueError("""usage: python run_cnn.py [train / test]""")
ValueError: usage: python run_cnn.py [train / test]

代码时直接copy的（勿喷），数据直接下载的网盘里的，放到了项目的data下面，主要问题感觉出在sys.argv上面，打印了一下：

if __name__ == '__main__':
    print(len(sys.argv))
    print(sys.argv[1])
    if len(sys.argv) != 2 or sys.argv[1] not in ['train', 'test']:
        raise ValueError("""usage: python run_cnn.py [train / test]""")

    print('Configuring CNN model...')
    config = TCNNConfig()
    if not os.path.exists(vocab_dir):  # 如果不存在词汇表，重建
        build_vocab(train_dir, vocab_dir, config.vocab_size)
    categories, cat_to_id = read_category()
    words, word_to_id = read_vocab(vocab_dir)
    config.vocab_size = len(words)
    model = TextCNN(config)

    if sys.argv[1] == 'train':
        train()
    else:
        test()

出现的结果在下面：

D:\Anaconda\envs\tensorflow\python.exe G:/project/python/pycharm/RNN-CNN/run_cnn.py
1
Traceback (most recent call last):
  File "G:/project/python/pycharm/RNN-CNN/run_cnn.py", line 176, in <module>
    print(sys.argv[1])
IndexError: list index out of range

希望能够得到你的帮助，谢谢！

about conv1d

[batch, in_width, in_channels]
问下，这里是直接把embedding的长度当成通道数吗？
如果是用conv2d呢？

工程关于python2/3的兼容问题

你好，最近在学习这个代码，想问一下这个代码能在python3下面跑么，有测试过么？

scipy库版本问题

我使用了scipy 1.0 版本在运行时，显示没有cannot import name '_ellipsoid'，请问：你们使用的是多少版本的？

请问您的词向量表是怎么生成的？

embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
这里并没有指定它的初始化方式，请问它的值从何而来？

模型问题

我在运行cnews_loader.py和cnews_group.py这两个文件的时间根本的不到我的训练数据啊，在cnews_loader.py这个文件中，根本没有看到数据的输入，而且在cnews_group.py这个文件中只是清空我之前cnew.train.txt文件中原有的数据。您的这个程序到底怎么执行啊？

一点代码的建议以及问题

你好:

1.关于在不同python版本的切换，我建议cnews_loader下的open_file改成这样，好处是不同版本下面运行模型不用人为改代码。

def open_file(filename, mode='r'):
    """
    Commonly used file reader, change this to switch between python2 and python3.
    mode: 'r' or 'w' for read or write
    """
    if sys.version_info[0] > 2:
        return open(filename, mode, encoding='utf-8', errors='ignore')
    else:
        return open(filename, mode)

我在python3下训练出了一个消息分类模型，然后我编写测试，在同样的输入情况下，分别用python2和python3得到的结果不一样，比如输入十条垃圾消息[1,2,3,4]，python3运行这个脚本全部判断为垃圾消息，我用同样的模型，用python2运行，其中的几个会被判断为正常消息，不得其解，明明一样的模型，求指教，谢谢

深度学习问题

利用深度学习CNN做中文文本分类与别的文本分类方法的根本区别在哪？是不是在文本特征表示这里？其余部分是不是跟以前的分类方法相同？

纠结的问题

我想问下，这个实例中文本分词方法用的是什么？有没有去停用词？文本特征表示方法是什么？文本特征选择方法是什么？我不知道我提的问题这么说对不对，如果可以请解释下，非常感谢！

使用bash文件生成数据的时候错误

请问，我在使用copy_data.sh在每个分类拷贝6500个文件的时候，终端总是出现“copy_data.sh: 25: copy_data.sh: let: not found”，刷屏出现，
并且每个文件夹下面生成的文件数远远超过6500个，请问是为什么呢

关于stop words

这个程序貌似没有stop words。。。通过词汇表看出来。。
但是为啥分类效果还这么好

怎么用训练的模型去预测哇？

新手，想试试如何去预测

可以增加个requirements.txt么

你好非常感谢作者的付出一点小建议可以把依赖包在requirements.txt列出来么😊

hidden_dim如何确定？

作者您好！在尝试rnn模型时发现，若将hidden_dim改为其他数，如256时，程序就会报维度上的错误，请问这个hidden_dim是如何确定的呢？

在测试集上得到的precision、recall、f1-score的数值的小数点精度怎么改变？

报这个错误是什么原因啊，是数据格式原因吗，不好意思啊，小弟刚接触这个

C:\py\python.exe C:/Users/zjccnu/PycharmProjects/text-classification-cnn-rnn/run_rnn.py
Traceback (most recent call last):
File "C:/Users/zjccnu/PycharmProjects/text-classification-cnn-rnn/run_rnn.py", line 176, in
raise ValueError("""usage: python run_rnn.py [train / test]""")
ValueError: usage: python run_rnn.py [train / test]

大神，你模型中embedding的词向量和word2vec的词向量有区别吗

你模拟直接用
embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)
和gensim的word2vec有区别吗

训练与测试的区分

您好！我是tensorflow的新手，我在模型的源码中没有看到对训练和测试过程的区分，例如测试仍旧使用了dropout，请问这个模型中如何设置一个flag使测试时网络结构改变（例如测试时不使用dropout）
ps：我自己想的办法是定义一个全局变量is_train，不过不知道您是否有其他考虑不区分训练和测试

使用模型預測

您好，我使用該模型進行預測，我在您的基础上写了一个预测函数，但总感觉不对，想请您帮忙看一下可以吗？（实在没办法了，看了好久还是没发现哪里有问题，身边的同学也不太懂，所以。。。。）麻烦您指点一下，真的非常感谢！！！！

下面这个是我写的预测函数：
#预测函数
def prediction():
input_x = tf.placeholder(tf.int32, name='input_x')
x_predict = preocess_file(data_path='data/cnews/', seq_length=600)
saver = tf.train.Saver()

with tf.Session() as sess:
    saver.restore(sess, './model')

    y = tf.get_collection('pred_network')[0]

    sess.run(input_x,feed_dict={input_x:x_predict})
print(y)

在您的代码的基础上，我还在模型的定义部分的分类器部分加了一点代码，如下：（就是最后两行代码）

分类器

        self.logits = tf.layers.dense(fc, self.config.num_classes,
            name='fc2')
        self.pred_y = tf.nn.softmax(self.logits)
        predict = tf.argmax(self.pred_y, 1)
        tf.add_to_collection('pred_network', predict)

然后运行的结果是：（就是print(y)的结果）
Tensor("score/ArgMax:0", shape=(?,), dtype=int64)

模型的应用

大神您好，我刚刚接触深度学习。。，我有一个中文商品数据，里面是商品的标题和所属类别，50万条数据，一共有1000多个小类。
我没有对标题分词而是直接把标题每个字分开训练成一个word2vec的模型，每个字对应一个 (1 X 100)的向量，之后我把每个商品标题堆成一个(20 X 100)的矩阵 (标题不够20个字就用0来补)，然后放到cnn模型里经过卷积，池化，全连接，训练完之后准确率几乎为零。。。
我想问您一下这个模型是不是不大适合这种类别过多的数据，还是我对这个模型的理解有误解。
麻烦您了

如何写一个方法，接收一个文本为输入，然后返回该文本的分类呢？

楼主您好，如何写一个方法，接收一个文本为输入，然后返回该文本的分类呢？

您好，我想问下，如果数据集的总文本数相同，每个分类的文本数不同与每个分类的文本数相同对实验结果有影响吗？

使用CNN进行短文本分类时有哪些参数可以调参?

在阅读 Implementing a CNN for Text Classification in TensorFlow 这篇文章时，有几个不太明白的地方，希望能交流一下。

在 dennybritz大牛的文中，使用了3种尺寸的卷积分别是[3、4、5]。而在当前项目好像是只使用了卷积尺寸是5。这两者有什么区别？
如果是对短文本进行分类，调下面几个参数是否可以？

embedding_dim = 12 # 词向量维度，
seq_length = 50 # 序列长度，这是代表每个文档的字符长度？
num_filters = 128 # 卷积核数目
kernel_size = 5 # 卷积核尺寸
vocab_size = 5000 # 词汇表达小
hidden_dim = 128 # 全连接层神经元
在字符级别的CNN在中文的分类与英文的分类方面有什么区别吗？

能否将train跑在豆瓣的Tfmesos上？

能否将train跑在豆瓣的Tfmesos上？
谢谢！

ValueError: usage: python run_rnn.py [train / test]

大神你好：

本人小白，在运行你的代码的时候出现
File "", line 177, in
raise ValueError("""usage: python run_cnn.py [train / test]""")

ValueError: usage: python run_cnn.py [train / test]

请问怎么解决这个问题？
(这是说python找不到train和test的Def吗？请原谅我的无知），
非常感谢

当模型训练完毕以后，想要输入一个测试语句，怎么对这个语句进行分类呢

运行报错问题，还望您指点

您好，我下载你的代码在自己电脑上运行。你的代码风格很好，让人看着不累，层次清楚，很舒服。
但我在运行你的run_epoch.py 文件时，出现了以下错误信息:

报错信息显示是由下面这条语句引起的：
inputs = tf.nn.embedding_lookup(embedding, self.input_x)

我觉得可能的原因：
因为我自己改变了数据集，用的我自己的数据。一共就2000条，两个类别。所以可能是原来 configuration.py 文件中的vocab_size 参数不符合我自己的情况，原来vocab_size =5000 ,感觉比较大。
但我不知道该到多少合适（刚入门）。

希望您有空能指点一下。万分感谢

词汇表问题

请问一下：您所用的词汇表都是基于训练集的，测试集中没有出现的词或者字符怎么办？我看到代码中是不在训练集的词或者字符不参与计算。这样的是否符合常理呢？

tensorflow-gpu加速问题

我在运行python run_rnn.py train时，非常慢，可不可用tensorflow-gpu进行加速运算？怎么修改？谢谢！

百度盘里的数据过期了可以重传一下吗？谢谢

同一进程里启动两个模型的实例

我使用当前算法分别训练了两个模型:
A. 内容分类的分类模型。
B. 垃圾文章的分类模型。

我的应用场景是需要判断一篇文章分类以及是否为垃圾文章。

当前的办法是，同时加载两个模型，先后对文章进行识别，但是我发现在在当前的算法在同一进程中依次加载A和B模型时，B模型的加载会报 ValueError: Variable embedding already exists, disallowed. 的错误。我可以理解这个错误是由于是由于A模型已经初始化变量了，且这个变量是全局性的。所以，无法进行B模型的加载。

想了解一下这种场景要如何使用当前算法？

我想到的解决方案是在算法实际化时，增加一个variable_scope，即在cnn_model.py的34行增加一个变量空间，这样，所有变量都是在这个空间下。如A模型，的变量空间是a_ns。B模型的空间是b_ns。但这种方案有一个问题：原来的模型需要重新训练，且训练时就要把空间名称确定。

不知道你们是否也遇到过这种情况？

gaussic / text-classification-cnn-rnn Goto Github PK

text-classification-cnn-rnn's Introduction

Text Classification with CNN and RNN

环境

数据集

预处理

CNN卷积神经网络

配置项

CNN模型

训练与验证

测试

RNN循环神经网络

配置项

RNN模型

训练与验证

测试

预测

text-classification-cnn-rnn's People

Contributors

Stargazers

Watchers

Forkers

text-classification-cnn-rnn's Issues

分类器

Recommend Projects

Recommend Topics

Recommend Org