zhanzecheng / chinese_segment_augment Goto Github PK

View Code? Open in Web Editor NEW

581.0 581.0 165.0 6.23 MB

python3实现互信息和左右熵的新词发现

Python 100.00%

chinese_segment_augment's People

Contributors

Stargazers

Watchers

Forkers

xinke0802 lu839684437 tutty427 ningpengtao-coder haonanli ansvver yclinyimeng vencent-love-python 15810856129 binkmust alucardmini ryfan-rs flyounger nactran urna jiangzhonglian wangbin321 xuanshang itsmengzaime smilejx w6688j zorfree fendaq gongqingyi-github wurentidai allensmile topdreamer caomaocao hiber-niu zhusleep lvdepin baifengbai carrychang dszzm casillas-qf binzhouchn semsevens williamfu1989 yuanjie-ai autogyro 0xb7ee we1l1n zhanglv0209 luanboheng liuwq168 greengrass2015 icecream0 mingxuanliu lihuan931104 chengli0327 andglf haowg hpatiencer wangxingjun778 chenny0808 artist100 iszhuangsha fzy0728 hhy5277 moreinterest fenlan dzhgb leedong123 vincentwong1 q111ysk moonpath 1pxsqgx slashqiang little-girl-1992 leekltw jxdms hungita wangdxf yuexianchao liujian19911023 qhduan liyumeng2018 renhongjia shaonianjim cold-eye useric cqupthub brightgems freemanguohua helen0804 godamn gdonglin shu19900209 1601120453 kyroad bobz653 ttklm20 roygyr qiaojj codefavor2018 wyf-1996 haojiepan1 yuconan drdavids 903353952

chinese_segment_augment's Issues

add node的时候，是否考虑在trieNode里面加个字典

如果是长文档的话，前面add这一步很慢。我用C#试了一下添加一个子node的字典，提升比较明显，可能内存多耗一点，供参考。

if (node.DictChilds.ContainsKey(word))
                {
                    node = node.DictChilds[word];
                }
                else
                {
                    var newNode = new TrieNode(word);
                    node.Childs.Add(newNode);
                    node.DictChilds.Add(word, newNode);
                    node = newNode;
                }

model.py的参数疑问

PMI = math.log(max(ch.count, 1), 2) - math.log(total, 2) - math.log(one_dict[child.char], 2) - math.log(one_dict[ch.char], 2)
为什么和log2( P(X,Y) / (P(X) * P(Y))感觉不一样？

这一步的意义是什么，为什么这样计算

==>result[key] = (values[0] + min(left[d], right[d])) * values[1]
这一步理解不了是在干什么，我的理解是只要取左右熵中的最小值作为这一步需要赋值的值就可以了

def find_word(self, N):
    # 通过搜索得到互信息
    # 例如: dict{ "a_b": (PMI, 出现概率), .. }
    bi = self.search_bi()
    # 通过搜索得到左右熵
    left = self.search_left()
    right = self.search_right()
    result = {}
    for key, values in bi.items():
        d = "".join(key.split('_'))
        # 计算公式 score = PMI + min(左熵， 右熵) => 熵越小，说明越有序，这词再一次可能性更大！
        #   PMI 是为了计算共现值。   values[0] 也是共现值
        result[key] = (values[0] + min(left[d], right[d])) * values[1]

UnicodeDecodeError: 'ascii' codec can't decode byte

运行报了这个错
#python3 demo_run.py
Traceback (most recent call last):
File "demo_run.py", line 44, in
stopwords = get_stopwords()
File "/data/home/tengenli/Chinese_segment_augment/utils.py", line 13, in get_stopwords
stopword = [line.strip() for line in f]
File "/data/home/tengenli/Chinese_segment_augment/utils.py", line 13, in
stopword = [line.strip() for line in f]
File "/usr/local/lib/python3.6/encodings/ascii.py", line 26, in decode
return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 2: ordinal not in range(128)

你这个代码效率是真的有点低

为什么需要一个外部词频表？

互信息和左右熵通过语料不是就可以计算了吗？为什么需要一个外部词表呢？

demo_run中如果将top值从5个改成10个，运行之后只能得到8个新词？

请问这是为什么......

想了解一下算法的复杂度是多少？是否还有提升的空间

文本变长以后非常耗时

计算出的左右熵几乎全部为零

您好，请问为什么运行出来发现左右熵基本都为零呢？

pyjieba真的有点慢，可以换成c++的

直接线性加和是最好的方法吗？

个人也写过一个类似的东东，尝试过几种左右熵和互信息的结合方式都不是很满意，请问还有更好的方法吗，尝试过加权和比值的多种参数。

data中的dict.txt

程序下载后无法正常运行

主要问题有两个：

在加载文件时，文件路径错误。
demo_run.py 43/48行缺少"/"
修改后文件model.py 84行：
word[0], word[1], word[2] = word[1], word[2], word[0]
TypeError: 'tuple' object does not support item assignment

P(S) = P(word1)P(word2|word1)P(word3|word2)...P(wordn|wordn-1)

我觉得通过训练类似的贝叶斯模型，然后调用模型训练语料的结果，来获得某些成词的置信度。可能更具有实用价值。简单来说 pw2 ,你们是用左右熵来映射的，这是否可行我觉得很成问题。