wainshine / chinese-names-corpus Goto Github PK
View Code? Open in Web Editor NEW中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
Home Page: https://open.namemoe.com/
License: Apache License 2.0
中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
Home Page: https://open.namemoe.com/
License: Apache License 2.0
感谢资料的提供!看介绍,得知Chinese_Names_Corpus “从亿级人名语料中提取”,现在我想做一些其他方面的分析想要这个原始语料库数据,不知道是否方便提供?
The English name of [Ancient_Names_Corpus(25W).txt] may be more appropriate as 'Ancient / Old' or 'Ancient / PreModern' or 'Old', etc.
In English, 'Ancient' is usually ~ 0 BC or earlier, but definitely < AD 1500 or so.
I have found that some of the names are definitely not ancient in the English sense of the word, e.g. 阿畢魯勒索費英阿, from AD 1711, see http://biogref.org/mm.pl?method=search&person_name=%E9%98%BF%E7%95%A2%E9%AD%AF%E5%8B%92%E7%B4%A2%E8%B2%BB%E8%8B%B1%E9%98%BF
Best wishes.
L
纯英文名应该可以直接用这种 预测出性别
英译中的感觉可以先用翻译api把中文翻成英文,再走上面的方式去预测
但迫于名字数量太多,免费翻译api感觉不太好撸XD
如题。
有博友微博发私信来问,那我就说说日文人名的清洗过程吧。
首先是语料的来源
日语人名的来源是日文维基百科,日语维基大概有100万词条,包含人名20万+。可以从维基官网免费下载到。其实也可以去几个日文人名网站抓取,不过会费劲些。
数据清洗工具
主力工具是MS SQL Server,其次用到了Excel,EmEditor。需要用到SQL和正则表达式。去除杂质时,也用到了tf-idf**。由于日文人名的特殊性,没有用贝叶斯概率也能取到较好效果。
数据准备工作
1、日文维基百科词条;
2、日文姓氏3000个;
3、分词字典(我自己用的是500万词,网上能找到的一般是50万词左右,看缘分),交叉对比用;
4、萌名项目之前标注的一些内容。
以下为微博内容
日本的姓氏比较多,有2万多个好像,以2字3字的居多,1字的也不少,还有少数4字以上的。在网上找到了一个比较全的姓氏表(前缀),这样就省下了很多时间。为了方便处理,4字和以上的姓氏,就直接丢弃不用了。提取名(后缀)的时候,1字的姓不参与。
将2字和3字的姓分别作为前缀,从那100万维基词条中拉取一遍数据,将数据手动切分成 人名,姓(前缀),名(后缀)。并导入到一张新表中,对后缀进行group by,并导入新表,然后删除低频词。用清洗后的后缀,再从维基词条那拉取一遍数据。重复迭代两到三次即可,此时将数据合并,大概有26万左右,杂质较多。
对姓进行group by,少于5个结果的,就直接删除掉。对名进行group by,注意高频部分,如町、駅,主要用于地名,可以直接删了。查询本数据和分词词库的交集部分,按词频倒序,手工删除非人名。此时大约还剩20万词,剩下的badcase以地名居多。
然后在GitHub上找到了一个日本妹子分享的日本地名大全,https://github.com/ledyba/PlaceNameParser ,利用此数据清洗掉上万地名。此时大概剩余18万,也即我分享的那个日本人名数据。
用时大概2天半。主要原因有1、使用了网上已有的3000个日本姓氏;2、使用了萌名项目的部分成果,如不能用于人名的汉字标注;3、对于低频词/字,直接删除;4、使用了百万级的分词字典做数据参照对比;5、日本人名的特殊性。
如果没有这些,完全从头再来,大概要2个月。
如果是中文人名,上面的方法就要大打折扣了,因为中文的大姓多是单姓。tf-idf方法作用不大,建议直接上贝叶斯。
首先非常感谢你的语料库,其次我想问一下关于人名数据的来源。谢谢
我看了一下数据确实是非常好的,但是如有更多关于数据来源的描述就更棒了
人名重名非常多,以出现频次作为权重才能获得正确分布。
仓库描述中提供的网址不可用,https://www.yimingzi.com/
github page 构建提供的网址为: https://open.namemoe.com/
是否考虑修改仓库中描述的网址?还是提供可用网址? @wainshine
120万人名中请删除:
勾通
联系
告诉
可不可以设计一种格式,标注一下人名是适用于何种性别呢?
只有姓氏的的排行,没有名字的排行或者姓名的排行啊
之前做过一个取名软件,名字候选不够多,现在似乎可以扩大很多,尤其是古代人名很有用!
你好,你的这些语料的词性分类都是手动搞的吗?比如我现在如果需要自己做一个自己的语料库,里面的词性什么的需要我一个一个手动搞吗?
整理个这个也挺有意义
有两点疑问:
1、如何利用这些词典训练人名识别模型?
2、如何利用这些词典构建训练语料?
感谢!
您好,请问能否提供日本名的原名(日本文)?在做一项研究需要根据英文字母名字判断国籍,希望通过日本原名能生成英文字母的日本名来训练模型,非常感谢!
1、GitHub下载 中文人名语料库 的数据。
2、将120万数据导入数据库,并将数据拆分成“姓名、姓、名字、单字人名用字、双字人名用字前、双字人名用字后”,然后分别统计字频。
3、由于badcase已经被我删除,这里出现的人名用字都是吉字、和中性字,可以放心使用。
4、通过字频,可以计算一个新词组的人名成词概率,给这个概率设置一个区间(拍脑袋就行),作为判断一个词组是不是人名的标准。
5、Unicode.org有一个汉字的库,里面有汉字的拼音、笔画、康熙部首;如果找不到就退而求其次,去爬汉典网的数据。
6、字意五行标记,金刀戈等属于金属、或兵器的部首,属金,其他类推。
7、释义,可以先用汉典或萌典的数据。
8、性别标记,库里有,或自己重新计算。
9、成语5万个,库里有;诗词,自己去找,GitHub上有很多。自己匹配。
1、人名成词概率高,但是他可能也是一个地名,如杨萌路、杨庄。
2、人名成词概率高,但是他可能也是一个机构名/机构简写/品牌名,如范思哲、谭木匠。
3、人名成词概率高,但是他可能也是一个常用词,如高原、金星。
我看你的更新记录里面写了删除非人名1000余,这个是怎么删除的呢?你是手动一个个的删除,还是机器通过某种规则删除的呢?这恶鬼我想知道
请问作者可以放出或添加那些生僻姓氏或者生僻名字的数据吗
可以提供一下名字的频率信息吗?
您好。请问有 **少数名族姓名 的库吗?
请问能否提供下不删除生僻字和低频字的数据呢?我们想统计下非一级字频的比例
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.