guoday / tencent2020_rank1st Goto Github PK

View Code? Open in Web Editor NEW

1.0K 19.0 319.0 1015 KB

The code for 2020 Tencent College Algorithm Contest, and the online result ranks 1st.

Python 98.54% Shell 1.46%

tencent2020_rank1st's People

Contributors

Stargazers

Watchers

Forkers

bettenw barryzm hjh1693316274 xiaoxueshenglalala chasingstar95 wngmen zengai bigfishdreamwater qianrenjian windkidsb xiong666 zymale xuelun fangwudi fighterlyl dmlan mliwang songfgh brezezee yunxileo yuierchen seeker1943 tiffen isthegoal zhushaoquan drjzhou jiapengwei marvin106722 miss1997yuan sinwang32 youngzw jinglever sunchao3555 cultureli08 strawhatfka viveeliuss syzong lemon234071 cholezlh haoxingyao alaskaw dxinvoker crystal-girl greathope kiminh yangyongcs zhuifeng414 traveler817 jialeiwang duyuankai1992 tiger115136 douboo zhouyonglong pylin2018 btgl233 shenyi666666 wan4918278897 zergtant adewin ycy3675001 autuanliu junyafang zdsu sofia05 liuwenhaha dylanchen0114 aigobig wbbhcb checkweng bosonnn walkerwell johndpope sunsj2014 quanfang yueyedeai xdqkid masterwall cqcracked jinshihao lsq357 jiewu915 ares2013 eadon999 jackmt xrosliang binnz fengxiang2 jackeylu vickzhang hyperji xiaohua123456 grenadew xuezhizhang librechou miracle-fmh redfox2005 feigezzzz tommylitlle bornbai markwjj

tencent2020_rank1st's Issues

package的版本

想请教下，你们当时运行这份代码使用的包的版本！感谢！

我这边在运行的时候，会因为包的版本报一些错误，例如gensim

预训练词向量频次过滤问题

您好，我看 src/w2v.py预训练中没有通过词频对出现的各种id进行过滤，直接min_count=1，请问这是因为min_count=1的结果最好还是为了与后续bert训练保持词表一致？或者还是其他的原因？然后请教下这个min_count参数的设置有什么经验吗？谢谢！！！

弱问下，PPT图中的用户点击序列具体？

被点击的广告的信息(素材 id、广告 id、产品 id、产品类目 id、广告主 id、广告主行业 id 等)

这么多id用哪个？怎么结合？

@guoday 多谢多谢

弱问下，PPT图中的广告受众人群的性别年龄分布，在预测阶段怎么得到？

@guoday 多谢多谢

请问模型config中的vocab_size=5表示什么意思？

我看到在预训练和训练模型的encoder中都有config.vocab_size=5这个参数，请问这个表示什么意思和什么作用？在后面找了很久也没有找到用到这个的地方，而且输入encoder的直接是embeding向量吧，所以也没有用到bert encoder里面的embeding。那么这个vocab_size似乎是没用到？

from transformers.modeling_bert import BertLayerNorm

这里是缺少类吧

有关模型细节的几个疑问

有几个疑问希望郭大能答疑解惑一下！

Bert预训练时产生的输入端词典和输出端词典都是至多保留10W个ID，并且在分类时也是使用的相同词典，是不是可以理解为只使用了高频的ID进行预训练和分类。
Bert预训练时，MASK、PAD、UNK 所对应的 embedding 是否都是全0 。如果是的话，这三个 special token 成为等价的话，会不会影响预训练。
Bert预训练时，输入端拼接了 word2vec 和一个 16 维的 embeddings，这个16维的embeddings 是起到一个什么作用。

关于最后的结果

请问，最终要预测的年龄看起来是个连续的整数，但是看模型最后输出的是20个类别的概率，请问这是怎么对应上的

hello，您好。我使用python 3.6 加载下载的w2v的table会报错如下：
File "run.py", line 94, in
args.embeddings_tables[x[0]] = gensim.models.KeyedVectors.load_word2vec_format(x[0], binary=False)
File "/Users/dwing/anaconda3/lib/python3.6/site-packages/gensim/models/keyedvectors.py", line 1549, in load_word2vec_format
limit=limit, datatype=datatype)
File "/Users/dwing/anaconda3/lib/python3.6/site-packages/gensim/models/utils_any2vec.py", line 276, in _load_word2vec_format
header = utils.to_unicode(fin.readline(), encoding=encoding)
File "/Users/dwing/anaconda3/lib/python3.6/site-packages/gensim/utils.py", line 368, in any2unicode
return unicode(text, encoding, errors=errors)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

将load_word2vec_format 函数改成load 的时候，加载data/sequence_text_user_id_product_id.128d时报错：
File "run.py", line 95, in
args.embeddings_tables[x[0]] = gensim.models.KeyedVectors.load(x[0])
File "/Users/dwing/anaconda3/lib/python3.6/site-packages/gensim/models/keyedvectors.py", line 1553, in load
model = super(WordEmbeddingsKeyedVectors, cls).load(fname_or_handle, **kwargs)
File "/Users/dwing/anaconda3/lib/python3.6/site-packages/gensim/models/keyedvectors.py", line 228, in load
return super(BaseKeyedVectors, cls).load(fname_or_handle, **kwargs)
File "/Users/dwing/anaconda3/lib/python3.6/site-packages/gensim/utils.py", line 435, in load
obj = unpickle(fname)
File "/Users/dwing/anaconda3/lib/python3.6/site-packages/gensim/utils.py", line 1398, in unpickle
return _pickle.load(f, encoding='latin1')
OSError: [Errno 22] Invalid argument

请问其他属性id是如何融入广告id的？

在进行w2v的时候是分别根据序列进行embeding得到128维向量。
请教一下，后续是如何融入到同一空间的？

Word2Vector和BERT权重必须一致是什么意思

恭喜大佬再次喜提冠军, Word2Vector和BERT权重必须一致是什么意思?

这里提供两种方式获得预训练权重: 重新预训练或下载预训练好的权重

注: Word2Vector和BERT权重必须一致，即要么全部重新预训练，要么全部下载