Code Monkey home page Code Monkey logo

chinese-names-corpus's People

Contributors

ltccss avatar wainshine avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

chinese-names-corpus's Issues

Chinese ancient names

The English name of [Ancient_Names_Corpus(25W).txt] may be more appropriate as 'Ancient / Old' or 'Ancient / PreModern' or 'Old', etc.

In English, 'Ancient' is usually ~ 0 BC or earlier, but definitely < AD 1500 or so.

I have found that some of the names are definitely not ancient in the English sense of the word, e.g. 阿畢魯勒索費英阿, from AD 1711, see http://biogref.org/mm.pl?method=search&person_name=%E9%98%BF%E7%95%A2%E9%AD%AF%E5%8B%92%E7%B4%A2%E8%B2%BB%E8%8B%B1%E9%98%BF

Best wishes.

L

英文名要不也标上性别吧?

纯英文名应该可以直接用这种 预测出性别
英译中的感觉可以先用翻译api把中文翻成英文,再走上面的方式去预测
但迫于名字数量太多,免费翻译api感觉不太好撸XD

日本人名数据清洗分享

有博友微博发私信来问,那我就说说日文人名的清洗过程吧。

首先是语料的来源
日语人名的来源是日文维基百科,日语维基大概有100万词条,包含人名20万+。可以从维基官网免费下载到。其实也可以去几个日文人名网站抓取,不过会费劲些。 ​​

数据清洗工具
主力工具是MS SQL Server,其次用到了Excel,EmEditor。需要用到SQL和正则表达式。去除杂质时,也用到了tf-idf**。由于日文人名的特殊性,没有用贝叶斯概率也能取到较好效果。

数据准备工作
1、日文维基百科词条;
2、日文姓氏3000个;
3、分词字典(我自己用的是500万词,网上能找到的一般是50万词左右,看缘分),交叉对比用;
4、萌名项目之前标注的一些内容。

以下为微博内容
日本的姓氏比较多,有2万多个好像,以2字3字的居多,1字的也不少,还有少数4字以上的。在网上找到了一个比较全的姓氏表(前缀),这样就省下了很多时间。为了方便处理,4字和以上的姓氏,就直接丢弃不用了。提取名(后缀)的时候,1字的姓不参与。

将2字和3字的姓分别作为前缀,从那100万维基词条中拉取一遍数据,将数据手动切分成 人名,姓(前缀),名(后缀)。并导入到一张新表中,对后缀进行group by,并导入新表,然后删除低频词。用清洗后的后缀,再从维基词条那拉取一遍数据。重复迭代两到三次即可,此时将数据合并,大概有26万左右,杂质较多。

对姓进行group by,少于5个结果的,就直接删除掉。对名进行group by,注意高频部分,如町、駅,主要用于地名,可以直接删了。查询本数据和分词词库的交集部分,按词频倒序,手工删除非人名。此时大约还剩20万词,剩下的badcase以地名居多。

然后在GitHub上找到了一个日本妹子分享的日本地名大全,https://github.com/ledyba/PlaceNameParser ,利用此数据清洗掉上万地名。此时大概剩余18万,也即我分享的那个日本人名数据。

用时大概2天半。主要原因有1、使用了网上已有的3000个日本姓氏;2、使用了萌名项目的部分成果,如不能用于人名的汉字标注;3、对于低频词/字,直接删除;4、使用了百万级的分词字典做数据参照对比;5、日本人名的特殊性。

如果没有这些,完全从头再来,大概要2个月。

如果是中文人名,上面的方法就要大打折扣了,因为中文的大姓多是单姓。tf-idf方法作用不大,建议直接上贝叶斯。

关于数据来源

首先非常感谢你的语料库,其次我想问一下关于人名数据的来源。谢谢

我看了一下数据确实是非常好的,但是如有更多关于数据来源的描述就更棒了

删除

120万人名中请删除:
勾通
联系
告诉

感谢分享

之前做过一个取名软件,名字候选不够多,现在似乎可以扩大很多,尤其是古代人名很有用!

语料库标注问题

你好,你的这些语料的词性分类都是手动搞的吗?比如我现在如果需要自己做一个自己的语料库,里面的词性什么的需要我一个一个手动搞吗?

可以用于人名识别训练吗

有两点疑问:

1、如何利用这些词典训练人名识别模型?
2、如何利用这些词典构建训练语料?

感谢!

日本名语料

您好,请问能否提供日本名的原名(日本文)?在做一项研究需要根据英文字母名字判断国籍,希望通过日本原名能生成英文字母的日本名来训练模型,非常感谢!

如何做一个取名产品?

1、GitHub下载 中文人名语料库 的数据。

2、将120万数据导入数据库,并将数据拆分成“姓名、姓、名字、单字人名用字、双字人名用字前、双字人名用字后”,然后分别统计字频。

3、由于badcase已经被我删除,这里出现的人名用字都是吉字、和中性字,可以放心使用。

4、通过字频,可以计算一个新词组的人名成词概率,给这个概率设置一个区间(拍脑袋就行),作为判断一个词组是不是人名的标准。

5、Unicode.org有一个汉字的库,里面有汉字的拼音、笔画、康熙部首;如果找不到就退而求其次,去爬汉典网的数据。

6、字意五行标记,金刀戈等属于金属、或兵器的部首,属金,其他类推。

7、释义,可以先用汉典或萌典的数据。

8、性别标记,库里有,或自己重新计算。

9、成语5万个,库里有;诗词,自己去找,GitHub上有很多。自己匹配。

会遇见哪些问题?

1、人名成词概率高,但是他可能也是一个地名,如杨萌路、杨庄。

2、人名成词概率高,但是他可能也是一个机构名/机构简写/品牌名,如范思哲、谭木匠。

3、人名成词概率高,但是他可能也是一个常用词,如高原、金星。

删除非人名的方式

我看你的更新记录里面写了删除非人名1000余,这个是怎么删除的呢?你是手动一个个的删除,还是机器通过某种规则删除的呢?这恶鬼我想知道

生僻字姓名

请问作者可以放出或添加那些生僻姓氏或者生僻名字的数据吗

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.