Code Monkey home page Code Monkey logo

pinyin-data's Introduction

pinyin-data Build Status

汉字拼音数据。

数据介绍

拼音数据的格式:

{code point}: {pinyins}  # {hanzi} {comments}
  • # 开头的行是注释,行内 # 后面的字符也是注释

  • {pinyins} 中使用逗号分隔多个拼音

  • 示例:

      # 注释
      U+4E2D: zhōng,zhòng  # 中
    

拼音文件介绍:

  • kTGHZ2013.txt: Unihan DatabasekTGHZ2013 部分的拼音数据(来源于《通用规范汉字字典》的拼音数据)
  • kHanyuPinyin.txt: Unihan DatabasekHanyuPinyin 部分的拼音数据(来源于《漢語大字典》的拼音数据)
  • kXHC1983.txt: Unihan DatabasekXHC1983 部分的拼音数据(来源于《现代汉语词典》的拼音数据)
  • kHanyuPinlu.txt: Unihan DatabasekHanyuPinlu 部分的拼音数据(来源于《現代漢語頻率詞典》的拼音数据)
  • kMandarin.txt: Unihan DatabasekMandarin 部分的拼音数据(普通话中最常用的一个读音。zh-CN 为主,如果 zh-CN 中没有则使用 zh-TW 中的拼音)
  • kMandarin_overwrite.txt: 手工纠正 kMandarin.txt 中有误的拼音数据(可以修改
  • GBK_PUA.txt: Private Use Area 中有拼音的汉字,参考 GB 18030 - 维基百科,自由的百科全书可以修改
  • nonCJKUI.txt: 不属于 CJK Unified Ideograph 但是却有拼音的字符(可以修改
  • kanji.txt: 日本自造汉字 的拼音数据 (可以修改
  • kMandarin_8105.txt: 《通用规范汉字表》(2013 年版)里 8105 个汉字最常用的一个读音 (可以修改)
  • overwrite.txt: 手工纠正的拼音数据(可以修改
  • pinyin.txt: 合并上述文件后的拼音数据
  • zdic.txt: 汉典网 的拼音数据(可以修改
  • cc_cedict.txt: 根据 cc-cedict.org 的词语拼音数据生成的单个汉字拼音数据

Unihan Database 数据版本:

Date: 2023-07-15 00:00:00 GMT [KL]

Unicode version: 15.1.0

修改数据

  • 上面标注了 可以修改 字样的文件都可以直接修改
  • 如果汉字的拼音不需要修改,只是调整第一个读音的话,可以直接修改 kMandarin_8105.txt 这个文件
  • 执行 merge_unihan 命令可以按照合并规则生成最新的 pinyin.txt 文件
  • 进入 unihan 目录,执行 make update 命令可以更新最新的 Unihan 数据

参考资料

相关项目

pinyin-data's People

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

pinyin-data's Issues

关于 普通话异读词审音表 里语音的处理

1985年12月发布的 《普通话异读词审音表》 约定的 异读词读音规范 在这里面有体现吗?
比如:骑 约定 统读 为 qí,但是词语 轻骑简从 的 拼音还是 qīng jì jiǎn cóng

希望有定制修改、生成的详细说明

  1. make merge_unihan 之后 -rg 'ɡ|ɑ'出错 没有rg 没有说明
    2.依赖python 3.x 希望在readme可以注明

kHanyuPinyin.txt 这个大字典里面非常多生僻读音,希望可以找一份比较现代的替代字典,否则只能发现一个bad case,overwrite一个 bad case

对比 zdic.txt 完善常用汉字的最常用读音

新增一个 kMandarin_overwrite.txt, 主要是第一个拼音即常用读音。

暂时只处理《通用规范汉字表》 里的 8105 汉字的最常用读音(kMandain_8105.txt) 。

  • 先找出跟 zdic.txt 不同的
  • 然后再网上查询验证读音

"嗯"字的拼音错误

from pypinyin import pinyin, Style
p = pinyin("嗯", style=Style.TONE3)
print(p)

结果为 [['n2']]

完善 kMandarin_8105.txt

《通用规范汉字表》里 8105 个汉字最常用的一个读音。

kMandarin_8105.txt (目前在 develop 分支)内

-> 表示需要验证
? 表示有争议,无法确定哪个是最常用的
<- 表示需要补充拼音信息

桃 tiao

var pinyinlite = require('pinyinlite');
console.info(pinyinlite("桃"))

=> [ [ 'zhao', 'tao', 'tiao' ] ]

pinyin.txt的多音字,出现部分音不应该存在的问题

你好!

【朝】,这个多音字就cháo,zhāo,但是这边出现了”zhū
【朝】,这个多音字就wāng,wǎng,但是这边出现了”hóng
【王】,这个多音字就wáng,wàng,但是这边出现了”yù“
【覃】,这个多音字就tán,qín,但是这边出现了”yǎn

麻烦这边看看是否有问题

分字

分字,多了个Ban 四声的音。

kHanyuPinyin.txt 的一些观点/问题

你好,我最近在做一些拼音工作,发现 kHanyuPinyin.txt 里面的数据,收录了很多极其罕见的发音。(而且,其中一些我确定是已经被规范化弃用了。)其他字典数据基本没有这个问题。

grep '技\|果\|儿\|排\|号\|厂\|找\|能\|癌' kHanyuPinyin.txt 
U+513F: rén,ér  # 儿
U+5382: hǎn,chǎng,yán,ān  # 厂
U+53F7: háo,hào,xiāo  # 号
U+627E: huá,zhǎo  # 找
U+6280: jì,qí  # 技
U+6392: pái,bài,pǎi  # 排
U+679C: guǒ,luǒ,guàn  # 果
U+764C: ái,yán  # 癌
U+80FD: néng,tái,nái,nài,xióng  # 能

其中 癌 字,现在已经规划化只有 ai 一个发音了。
所以有个观点不知是否成熟,是不是可以考虑 pinyin.txt 中,直接不使用 kHanyuPinyin.txt 的数据?

unicode版本的一些字读音问题

@mozillazg 你发现unicode v8.0和v9.0的 #kMandarin读音不同吗?

识:Unihan9.0 shì ≠Unihan8.0 shí(unicode 9这个读音明显是错的,8.0才是对)
讽:Unihan9.0 fèng ≠Unihan8.0 fěng(unicode 9这个读音明显是错的,8.0才是对)

谁:Unihan9.0 shéi ≠Unihan8.0 shuí(unicode 9对?)
呒:Unihan9.0 wǔ ≠Unihan8.0 fǔ(unicode 9对?)
呵:Unihan9.0 hē ≠Unihan8.0 ā(unicode 9对?)
哒:Unihan9.0 dá ≠Unihan8.0 dā(unicode 9对?)
啵:Unihan9.0 bō ≠Unihan8.0 bo(unicode 9对?)
嗲:Unihan9.0 diē ≠Unihan8.0 diǎ(unicode 9对?)
滧:Unihan9.0 yáo ≠Unihan8.0 xiao(unicode 9对?)
绷:Unihan9.0 bēng ≠Unihan8.0 běng(unicode 9对?)
茋:Unihan9.0 zhǐ ≠Unihan8.0 dǐ(unicode 9对?)
谝:Unihan9.0 pián ≠Unihan8.0 piǎn(unicode 9对?)
跶:Unihan9.0 dá ≠Unihan8.0 tà(unicode 9对?)
蹒:Unihan9.0 mán ≠Unihan8.0 pán(unicode 9对?)
酦:Unihan9.0 pò ≠Unihan8.0 fā(unicode 9对?)
钶:Unihan9.0 kē ≠Unihan8.0 ē(unicode 9对?)
钸:Unihan9.0 bū ≠Unihan8.0 bù(unicode 9对?)
闫:Unihan9.0 yán ≠Unihan8.0 yàn(unicode 9对?)
颇:Unihan9.0 pǒ ≠Unihan8.0 pō(unicode 9对?)

这个我已向unicode.org v10.0 #kMandarin提过,没改!
我也向unicode.org v10.0 #kMandarin提过增加《通用规范汉字表》那150字没有读音的汉字,建议增加这些字的常用读音。没反应!
@mozillazg 你也到unicode.org提一下案吧……

'怀'字多了一个拼音'fu'

运行环境

  • 操作系统(Linux/macOS/Windows):Ubuntu 18.04.3 LTS
  • Python 版本: 3.6.8
  • pypinyin 版本:pypinyin-0.36.0

问题描述

‘怀'字pypinyin的结果为:[['huai', 'fu']]

问题复现步骤

pinyin('怀', style=Style.NORMAL, heteronym=True, errors='ignore')
Out[77]: [['huai', 'fu']]

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.