embedding / chinese-word-vectors Goto Github PK

View Code? Open in Web Editor NEW

11.6K 286.0 2.3K 1.45 MB

100+ Chinese Word Vectors 上百种预训练中文词向量

License: Apache License 2.0

Python 100.00%

chinese chinese-word-segmentation embeddings word-embeddings vectors-trained embedding

chinese-word-vectors's People

Contributors

Stargazers

Watchers

Forkers

shenshen-hungry xuerenlv runngezhang jiangcy1994 wdimmy tomzhang wuchengzhu wushixong renke2 embedxj zzmjohn little1tow ludwisvan hogwartsrico brucexia6116 ryfan-rs awesome-nlp qq547276542 vinxv qiuwenbogdut icewwn allensmile xuh5156 huangxizhi mattzheng nlpformyself fendaq shizhediao topxxuki gdh756462786 jimmy-walker liu4lin wyj2046 fage2016 gongqingyi-github sidney1994 cuizhigang1989 web199195 fjibj shihuaxing chesterkuo alwayssomeone chdd liwzhi huntercmd zhishan01 yydai rogershenyc kingofoz passtion xiaomaohoujiao2 metesa sweetcard samueltt silencezjl szhaoyu 5201314wq liu-nlper roycezjq weddingcandy chanshunli cshjarry carriehua zgsxwsdxg mennianshi yuhuofei vvvictorlee yangvict joey10huawei ichi1 js641 niesz tanglifutlf allonbrooks wuyongdec 0xqq ycsuperlife webblearning huxiaoqian chuxiaokai fashtimedotcom mysqlsc huangpeng1126 onebite jakeywu tpzjj612 wordgod drrui ludybupt xyionwu mars-wei leempan dejianyang quietwoods lostmonk strrchr 1995gatch qiang841129 guanlongzhao feisan

chinese-word-vectors's Issues

I download (People's Daily News 人民日报, Word + Character + Ngram), and use bzip2 to decompress the file.
I want to use word2vec.load(), so I rename the file name sgns.renmin.bigram-char to sgns_renmin_bigram_char.
the error is:
ValueError: could not broadcast input array from shape (299) into shape (300)

训练集Corpus Size是什么单位

请问楼主，百度百科corpus size 4.1G，具体是什么的size？

網盤不存在

您好, 點擊幾個地址之後都顯示網盤不存在, 可否更新鍵結呢? 感謝!

用法

我看了几遍都没看懂这玩意儿是怎么用的，难道只是用来看的？

詞向量下載連結失效？

您好
詞向量下載鏈結似乎失效了
請檢查一下謝謝您

请问词向量文件是按照词频高低来排序的吗？

例如我只想要词频最高的前 N 个词，是否只需读取前 N 行即可？

链接错误

请问有公布训练好的词向量的文件吗？
为什么点击词向量的链接然后跳转到了百度首页？谢谢！

Vocabulary size和embedding中的词汇量不符

我下载了wikipedia语料的word+char模型，用gensim载入之后显示词汇量为352281，但README中的vocabulary size写的是2129K
按我的理解，两者应该是一样的。请问是我的理解有误还是数据有误？

PPMI

想问一下，这个PPMI训练的model怎么使用，不太明白，这方面的信息有点少，可以给一些建议吗？万分感谢

Question about the download links

Could you please publish a link to all of the Baidu Netdisk files? I wish to download all the model files quickly rather than one by one.
Is there any plan to save the model files to other netdisks? For example, Google Drive or Dropbox. It should be very convenient for oversea researchers.

Many thanks for your work!

下载的词向量无法解压

就是百度网盘下载下来sgns.merge.word.bz2 正常用bzip2 -d sgns.merge.word.bz2 命令解压报错
bzip2: sgns.merge.word.bz2 is not a bzip2 file. 难道下载的问题？谢谢～～

下载的词向量文件，怎么变成word2vec模型文件，并且支持增量训练

Download link not available

the word2vec pre-trained word embedding for weibo is not available

Need Help...

大佬能不能提供下训练词向量的语料呢，需要怎么使用这个词向量？使用Word2Vec.load()会报错

Baidu Encyclopedia word embedding file has some misssing spaces

问题文件：
Word2vec / Skip-Gram with Negative Sampling (SGNS)

Baidu Encyclopedia 百度百科的 word

分别是
第269598行
第334166行
第340101行
第386099行
第387913行
第398991行
第403440行
第417792行
第440725行
第510420行
第518270行
第628803行

都是word和第一个数字连在了一起
请核对一下

how to get the corpus like 'Financial News 金融新闻'?

如何使用这些模型呢？

作为一个NLP小白，看完README还是不知道该怎么用这些训练好的东西。

可否提供一个说明：

这些模型是什么含义，格式如何，如何读取？
提供一些可以运行的示例代码，包含加载模型，词转向量；
这么多模型，在做应用时，该如何作选择？

python gensim 不能加载词向量文件

D:\Program\Anaconda3\lib\site-packages\gensim\utils.py:860: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
Traceback (most recent call last):
File ".\zzk_word2vec.py", line 101, in
test_word_embedding('D:\data\pretrain_word2vec\Chinese-Word-Vectors\sgns.zhihu.char\sgns.zhihu.char')
File ".\zzk_word2vec.py", line 76, in test_word_embedding
model = gensim.models.KeyedVectors.load_word2vec_format(vector_file, binary=False, encoding='utf8')
File "D:\Program\Anaconda3\lib\site-packages\gensim\models\keyedvectors.py", line 250, in load_word2vec_format
parts = utils.to_unicode(line.rstrip(), encoding=encoding, errors=unicode_errors).split(" ")
File "D:\Program\Anaconda3\lib\site-packages\gensim\utils.py", line 242, in any2unicode
return unicode(text, encoding, errors=errors)
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: invalid continuation byte

Why I just find 260k vocabulary in Zhihu_QA but you said there are 1117K?

词向量文件无法load

试了一个百科预料生成的此向量，用gensim进行load（之所以用load方式，是因为想用gensim做增量学习），gensim.models.Word2Vec.load("sgns.baidubaike.bigram-char") 报错，

能把训练词向量的代码开源一下嘛

中文字符向量

什么时候可以提供中文字符的向量表示

编码问题

非常感谢作者的这项非常棒的工作。但是我在使用gensim加载词向量的时候遇到了encoding问题，一部分字符不能被utf-8解码。不知作者可否提供词向量的二进制文件从而避免这个问题？

解压之后还是出现列数不一致的问题

我用.strip().split()分割一行看他的长度，有很多都是300,301,302,303不等，应该是我没有用对分隔符，能否告知字和向量之间是用什么进行分隔的？

为什么我打开文件看到的是301维数字呢？是第一维还是最后一维有特殊含义呢？

用程序读取一行，发现是一个汉字后面跟了301个数字，这是怎么回事呢？

词向量选择的target都是word吗？只不过context是word、word+char、word+ngram、word+char+ngram

你好~感谢你们将你们的工作开源，受贵组论文启示，我想要用自己的语料库训练context为word+char+ngram的SGNS embedding。于是我又看了ngram2vec的论文，发现其根据target和context不同分为：uni_uni, uni_bi, bi_bi... 。CA8中是只用target为uni的uni_bi吗？然后又在context中加入char？如果我想训练context为word+char+ngram的SGNS embedding，如何将char加入到context呢？是要自己在ngram2vec toolkit中自己写代码添加<word,char>对嘛？

Word+Character+Ngram问题

大神，有个问题请教一下。
context feature里面的Word，Word+Ngram，Word+Character，Word+Character+Ngram有什么区别？
词向量是使用window中的词成对的训练跑出来的隐层权重矩阵。
Word+Ngram这种是怎么训练的呢？或者说Ngram模型就是个概率表，这个怎么融合进词向量训练里面的呢？还有+Character也是一样的疑问。
不明白这几个的区别，能否讲解一下，谢谢啦。

感觉模型效果没有cbow好呢

在lstm中，我用word2vec比知乎问答或者mix-max综合的效果还要好，是个什么状态?

增量训练问题

您好！
用gensim训练时，增量训练只能改变模型的参数，新的词汇并不能添加进模型中，这就导致了没办法使用一些预训练好的模型对具体的任务做微调。所以想请问您在使用ngram2vec的过程中遇到过这个问题么？

Cannot download the pre-trained vector files

I tried to download context word vectors of Word → Character (1), however, I failed to do that since I cannot register the account of baidu. Can you upload the dataset to other places such as google drive or dropbox? Thanks.

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: invalid continuation byte

使用的是sgns.merge.word词向量，python3
试了两个方法都不行

    f = open(filename,'r')
    line = f.readline().strip()
    word_dim = int(line.split(' ')[1])
    for line in f:
        row = line.strip().split(' ')
        vocab.append(row[0])
        embd.append(row[1:])
    f.close()

用f.readlines()同样错误
错误:
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 3472-3473: invalid continuation byte

    with open(filename, 'rb') as f:
        line = f.readline().decode('utf-8').strip()
        word_dim = int(line.split(' ')[1])
        for line in f:
            row = line.decode('utf-8').strip().split(' ')
            vocab.append(row[0])
            embd.append(row[1:])

错误:
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: invalid continuation byte