wainshine / chinese-names-corpus Goto Github PK

View Code? Open in Web Editor NEW

3.9K 105.0 978.0 35.77 MB

中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。

Home Page: https://open.namemoe.com/

License: Apache License 2.0

names corpus dict ner dataset

chinese-names-corpus's Introduction

中文人名语料库（Chinese-Names-Corpus）

关于萌名（NameMoe）

萌名是一个基于大数据和自然语言处理技术的新取名产品。

通过分词工具对海量文本进行分词和词频统计。数据清洗后，得到千万级的人名词典。再对其进行性别、年龄、拼音、情感、人名指数等标记，最终形成5600万+的中文人名图谱。

本子项目可用于中文分词、人名识别等场景。

PS1：维护此项目，除个人兴趣外，主要是在此过程中，可通过任务驱动来不断学习和实践NLP、KG以及AI等相关前沿技术。

PS2：正在找工作，求内部推荐～移动医疗/SaaS后台/人工智能方向的高级产品经理一枚。

PS3：请勿提交涉政issue，谢谢。

PS4：如将本项目转存到国内的某平台，请设置成0积分下载，并保留GitHub链接。

中文常见人名（Chinese_Names_Corpus）

数据大小：120万。

语料来源：从亿级人名语料中提取。

数据清洗：已清洗，但仍存有少量badcase。

新增人名生成器。

中文古代人名（Ancient_Names_Corpus）

数据大小：25万。

语料来源：多个人名词典汇总。

数据清洗：已清洗。

中文姓氏（Chinese_Family_Name）

数据大小：1千。

语料来源：从亿级人名语料中提取。

数据清洗：已清洗。

中文称呼（Chinese_Relationship）

数据大小：5千，称呼词根；18万，中文称呼。

语料来源：多个人名词典汇总。

数据清洗：已清洗，但仍存有大量badcase。

英文人名语料库（English-Names-Corpus）

翻译人名（English_Cn_Name_Corpus）

数据大小：48万。

语料来源：多个人名词典汇总。

数据清洗：已清洗，但仍存有少量badcase，以地名居多。

本语料的人名识别由网友 “ltccss” 友情提供。

日文人名语料库（Japanese_Names_Corpus）

日文人名（Japanese_Names_Corpus）

数据大小：18万。

数据来源：从维基百科中提取。

数据清洗：已清洗，但仍存有少量badcase。

数据清洗过程详见：“日本人名数据清洗分享”。

中文词典语料库（Chinese_Dict_Corpus）

成语词典（ChengYu_Corpus）

数据大小：5万。

语料来源：多个成语词典汇总。

数据清洗：已清洗。

Stargazers over time

更新时间：

更早的提交，不记得时间了。

删除了1000余非人名。 -2017.08.08

删除了5000余非人名。 -2017.11.25

新增了18万日文人名。 -2017.12.17

删除了1500余非人名（主要是日文地名）。 -2017.12.30

删除了约3万余非人名、或低频人名。 -2018.11.04

删除了2600余非人名、或低频人名。 -2019.04.15

删除了约1万余非人名、或低频人名。 -2019.07.27

将文件移动到文件夹。 -2019.10.21

新增人名生成器。 -2020.01.29

删除了约6万余非人名、或低频人名。 -2020.12.13

更新人名生成器。 -2021.11.22

删除了约700余非人名、或低频人名。 -2022.11.30

@萌名NameMoe 整理

2024.03.27

chinese-names-corpus's People

Contributors

Stargazers

Watchers

Forkers

fuchaoqun ripingit imlyj zszyue huangkunbin mingyuan2011 layidao anylzer yunmoxue amsz dingjb yangxingpping huangkq1989 yuyang151311 xiujie-jiang re-f 0x9be00ff1 fanlifei kebohiki iangely li199503 dividez av1080p icemic wsygoogol changtailiang shengqi158 lljxx1 breezess blusno1 yibaini iamsujun leohuang2015 foursking hzlpy sky-l azuresongmageblade seventhelement 5crat qianlitp wucaishi manning23 zhanglei 5up3rc personalsmall songofhack bloodmarry12 weikeqin chennqqi doubaokun lengyun123456 yaole jerecao he1l0e 0xmid9 peachscript colinsongf fsxchen ovens open-source-backup kimsuk codehai peterdocter summyd coffeehb fuckthelife strrchr bingzi anderscui fengxiaochuang jin10086 p19891117 liyang1069 weimingtom fiag seaterron vf3ng qian2729 xtea hanhaohh phddone windream evil-s0ul hontsev-damiya-lab abitduck newaynewlife nothinkinggao derektso xinke0802 flashriver mib23 acgcoder hak-l alfredcc mrpotatosun xbmu yjr930 lingrow0 taozhang8 zhoubaozhou

chinese-names-corpus's Issues

请问能否提供下不删除生僻字和低频字的数据呢？我们想统计下非一级字频的比例

生僻字姓名

请问作者可以放出或添加那些生僻姓氏或者生僻名字的数据吗

可以用于人名识别训练吗

有两点疑问：

1、如何利用这些词典训练人名识别模型？
2、如何利用这些词典构建训练语料？

感谢！

Chinese ancient names

The English name of [Ancient_Names_Corpus（25W）.txt] may be more appropriate as 'Ancient / Old' or 'Ancient / PreModern' or 'Old', etc.

In English, 'Ancient' is usually ~ 0 BC or earlier, but definitely < AD 1500 or so.

I have found that some of the names are definitely not ancient in the English sense of the word, e.g. 阿畢魯勒索費英阿, from AD 1711, see http://biogref.org/mm.pl?method=search&person_name=%E9%98%BF%E7%95%A2%E9%AD%AF%E5%8B%92%E7%B4%A2%E8%B2%BB%E8%8B%B1%E9%98%BF

Best wishes.

有古今**的名人的名字库吗

整理个这个也挺有意义

日本名语料

您好，请问能否提供日本名的原名（日本文）？在做一项研究需要根据英文字母名字判断国籍，希望通过日本原名能生成英文字母的日本名来训练模型，非常感谢！

取名的网站很卡

取名的网站很卡，可以优化一下吗

关于数据来源

首先非常感谢你的语料库，其次我想问一下关于人名数据的来源。谢谢

我看了一下数据确实是非常好的，但是如有更多关于数据来源的描述就更棒了

Gender api

Have you thought about using a name gender recognition service?

e.g. https://gender-api.com/

名字频率信息

可以提供一下名字的频率信息吗？

日本人名数据清洗分享

有博友微博发私信来问，那我就说说日文人名的清洗过程吧。

首先是语料的来源
日语人名的来源是日文维基百科，日语维基大概有100万词条，包含人名20万+。可以从维基官网免费下载到。其实也可以去几个日文人名网站抓取，不过会费劲些。

数据清洗工具
主力工具是MS SQL Server，其次用到了Excel，EmEditor。需要用到SQL和正则表达式。去除杂质时，也用到了tf-idf**。由于日文人名的特殊性，没有用贝叶斯概率也能取到较好效果。

数据准备工作
1、日文维基百科词条；
2、日文姓氏3000个；
3、分词字典（我自己用的是500万词，网上能找到的一般是50万词左右，看缘分），交叉对比用；
4、萌名项目之前标注的一些内容。

以下为微博内容
日本的姓氏比较多，有2万多个好像，以2字3字的居多，1字的也不少，还有少数4字以上的。在网上找到了一个比较全的姓氏表(前缀)，这样就省下了很多时间。为了方便处理，4字和以上的姓氏，就直接丢弃不用了。提取名(后缀)的时候，1字的姓不参与。

将2字和3字的姓分别作为前缀，从那100万维基词条中拉取一遍数据，将数据手动切分成人名，姓(前缀)，名(后缀)。并导入到一张新表中，对后缀进行group by，并导入新表，然后删除低频词。用清洗后的后缀，再从维基词条那拉取一遍数据。重复迭代两到三次即可，此时将数据合并，大概有26万左右，杂质较多。

对姓进行group by，少于5个结果的，就直接删除掉。对名进行group by，注意高频部分，如町、駅，主要用于地名，可以直接删了。查询本数据和分词词库的交集部分，按词频倒序，手工删除非人名。此时大约还剩20万词，剩下的badcase以地名居多。

然后在GitHub上找到了一个日本妹子分享的日本地名大全，https://github.com/ledyba/PlaceNameParser ，利用此数据清洗掉上万地名。此时大概剩余18万，也即我分享的那个日本人名数据。

用时大概2天半。主要原因有1、使用了网上已有的3000个日本姓氏；2、使用了萌名项目的部分成果，如不能用于人名的汉字标注；3、对于低频词/字，直接删除；4、使用了百万级的分词字典做数据参照对比；5、日本人名的特殊性。

如果没有这些，完全从头再来，大概要2个月。

如果是中文人名，上面的方法就要大打折扣了，因为中文的大姓多是单姓。tf-idf方法作用不大，建议直接上贝叶斯。

3、由于badcase已经被我删除，这里出现的人名用字都是吉字、和中性字，可以放心使用。

4、通过字频，可以计算一个新词组的人名成词概率，给这个概率设置一个区间（拍脑袋就行），作为判断一个词组是不是人名的标准。

5、Unicode.org有一个汉字的库，里面有汉字的拼音、笔画、康熙部首；如果找不到就退而求其次，去爬汉典网的数据。

6、字意五行标记，金刀戈等属于金属、或兵器的部首，属金，其他类推。

7、释义，可以先用汉典或萌典的数据。

8、性别标记，库里有，或自己重新计算。

9、成语5万个，库里有；诗词，自己去找，GitHub上有很多。自己匹配。

会遇见哪些问题？

1、人名成词概率高，但是他可能也是一个地名，如杨萌路、杨庄。

2、人名成词概率高，但是他可能也是一个机构名/机构简写/品牌名，如范思哲、谭木匠。

3、人名成词概率高，但是他可能也是一个常用词，如高原、金星。

**少数名族姓名

您好。请问有 **少数名族姓名的库吗？

wainshine / chinese-names-corpus Goto Github PK

chinese-names-corpus's Introduction

中文人名语料库（Chinese-Names-Corpus）

英文人名语料库（English-Names-Corpus）

日文人名语料库（Japanese_Names_Corpus）

中文词典语料库（Chinese_Dict_Corpus）

Stargazers over time

chinese-names-corpus's People

Contributors

Stargazers

Watchers

Forkers

chinese-names-corpus's Issues

会遇见哪些问题？

Recommend Projects

Recommend Topics

Recommend Org