mozillazg / python-pinyin Goto Github PK

View Code? Open in Web Editor NEW

4.8K 99.0 606.0 7.29 MB

汉字转拼音(pypinyin)

Home Page: https://pypinyin.readthedocs.io

License: MIT License

Makefile 0.07% Python 99.93%

python pinyin pypinyin hanzi hanzi-pinyin python2 python3 chinese

python-pinyin's Introduction

汉字拼音转换工具（Python 版）

将汉字转为拼音。可以用于汉字注音、排序、检索(Russian translation) 。

最初版本的代码参考了 hotoo/pinyin 的实现。

Documentation: https://pypinyin.readthedocs.io/
GitHub: https://github.com/mozillazg/python-pinyin
License: MIT license
PyPI: https://pypi.org/project/pypinyin
Python version: 2.7, pypy, pypy3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 3.10, 3.11, 3.12

Contents

特性
安装
使用示例
文档
FAQ
拼音数据
Related Projects

特性

根据词组智能匹配最正确的拼音。
支持多音字。
简单的繁体支持，注音支持，威妥玛拼音支持。
支持多种不同拼音/注音风格。

安装

pip install pypinyin

使用示例

>>> from pypinyin import pinyin, lazy_pinyin, Style
>>> pinyin('中心')  # or pinyin(['中心'])，参数值为列表时表示输入的是已分词后的数据
[['zhōng'], ['xīn']]
>>> pinyin('中心', heteronym=True)  # 启用多音字模式
[['zhōng', 'zhòng'], ['xīn']]
>>> pinyin('中心', style=Style.FIRST_LETTER)  # 设置拼音风格
[['z'], ['x']]
>>> pinyin('中心', style=Style.TONE2, heteronym=True)
[['zho1ng', 'zho4ng'], ['xi1n']]
>>> pinyin('中心', style=Style.TONE3, heteronym=True)
[['zhong1', 'zhong4'], ['xin1']]
>>> pinyin('中心', style=Style.BOPOMOFO)  # 注音风格
[['ㄓㄨㄥ'], ['ㄒㄧㄣ']]
>>> lazy_pinyin('威妥玛拼音', style=Style.WADEGILES)
['wei', "t'o", 'ma', "p'in", 'yin']
>>> lazy_pinyin('中心')  # 不考虑多音字的情况
['zhong', 'xin']
>>> lazy_pinyin('战略', v_to_u=True)  # 不使用 v 表示 ü
['zhan', 'lüe']
# 使用 5 标识轻声
>>> lazy_pinyin('衣裳', style=Style.TONE3, neutral_tone_with_five=True)
['yi1', 'shang5']
# 变调  nǐ hǎo -> ní hǎo
>>> lazy_pinyin('你好', style=Style.TONE2, tone_sandhi=True)
['ni2', 'ha3o']

注意事项 ：

默认情况下拼音结果不会标明哪个韵母是轻声，轻声的韵母没有声调或数字标识（可以通过参数 neutral_tone_with_five=True 开启使用 5 标识轻声）。
默认情况下无声调相关拼音风格下的结果会使用 v 表示 ü （可以通过参数 v_to_u=True 开启使用 ü 代替 v ）。
默认情况下会原样输出没有拼音的字符（自定义处理没有拼音的字符的方法见文档）。
嗯 的拼音并不是大部分人以为的 en 以及存在既没有声母也没有韵母的拼音，详见下方 FAQ 中的说明。

命令行工具：

$ pypinyin 音乐
yīn yuè

$ python -m pypinyin.tools.toneconvert to-tone 'zhong4 xin1'
zhòng xīn

文档

详细文档请访问：https://pypinyin.readthedocs.io/。

项目代码开发方面的问题可以看看开发文档。

FAQ

拼音有误？

可以通过下面的方法提高拼音准确性：

可以通过自定义词组拼音库或者单字拼音库的方式修正拼音结果，详见文档。

>> from pypinyin import load_phrases_dict, load_single_dict

>> load_phrases_dict({'桔子': [['jú'], ['zǐ']]})  # 增加 "桔子" 词组

>> load_single_dict({ord('还'): 'hái,huán'})  # 调整 "还" 字的拼音顺序或覆盖默认拼音

也可以使用 pypinyin-dict 项目提供的自定义拼音库来纠正结果。

# 使用 phrase-pinyin-data 项目中 cc_cedict.txt 文件中的拼音数据优化结果
>>> from pypinyin_dict.phrase_pinyin_data import cc_cedict
>>> cc_cedict.load()

# 使用 pinyin-data 项目中 kXHC1983.txt 文件中的拼音数据优化结果
>>> from pypinyin_dict.pinyin_data import kxhc1983
>>> kxhc1983.load()

如果是分词导致的拼音有误的话，可以先使用其他的分词模块对数据进行分词处理，然后将分词后的词组结果列表作为函数的参数即可:

>>> # 使用其他分词模块分词，比如 jieba 之类，
>>> #或者基于 phrases_dict.py 里的词语数据使用其他分词算法分词
>>> words = list(jieba.cut('每股24.67美元的确定性协议'))
>>> pinyin(words)

如果你希望能通过训练模型的方式提高拼音准确性的话，可以看一下 pypinyin-g2pW 这个项目。

为什么没有 y, w, yu 几个声母？

>>> from pypinyin import Style, pinyin
>>> pinyin('下雨天', style=Style.INITIALS)
[['x'], [''], ['t']]

因为根据《汉语拼音方案》， y，w，ü (yu) 都不是声母。

声母风格（INITIALS）下，“雨”、“我”、“圆”等汉字返回空字符串，因为根据《汉语拼音方案》， y，w，ü (yu) 都不是声母，在某些特定韵母无声母时，才加上 y 或 w，而 ü 也有其特定规则。 —— @hotoo

如果你觉得这个给你带来了麻烦，那么也请小心一些无声母的汉字（如“啊”、“饿”、“按”、“昂”等）。这时候你也许需要的是首字母风格（FIRST_LETTER）。 —— @hotoo

参考: hotoo/pinyin#57, #22, #27, #44

如果觉得这个行为不是你想要的，就是想把 y 当成声母的话，可以指定 strict=False ，这个可能会符合你的预期：

>>> from pypinyin import Style, pinyin
>>> pinyin('下雨天', style=Style.INITIALS)
[['x'], [''], ['t']]
>>> pinyin('下雨天', style=Style.INITIALS, strict=False)
[['x'], ['y'], ['t']]

详见 strict 参数的影响。

存在既没有声母也没有韵母的拼音？

是的，strict=True 模式下存在极少数既没有声母也没有韵母的拼音。比如下面这些拼音（来自汉字 嗯、呒、呣、唔）:

ń ńg ňg ǹg ň ǹ m̄ ḿ m̀

尤其需要注意的是 嗯 的所有拼音都既没有声母也没有韵母，呣 的默认拼音既没有声母也没有韵母。详见 #109 #259 #284 。

如何将某一风格的拼音转换为其他风格的拼音？

可以通过 pypinyin.contrib.tone_convert 模块提供的辅助函数对标准拼音进行转换，得到不同风格的拼音。比如将 zhōng 转换为 zhong，或者获取拼音中的声母或韵母数据：

>>> from pypinyin.contrib.tone_convert import to_normal, to_tone, to_initials, to_finals
>>> to_normal('zhōng')
'zhong'
>>> to_tone('zhong1')
'zhōng'
>>> to_initials('zhōng')
'zh'
>>> to_finals('zhōng')
'ong'

更多拼音转换的辅助函数，详见 pypinyin.contrib.tone_convert 模块的文档。

如何减少内存占用？

如果对拼音的准确性不是特别在意的话，可以通过设置环境变量 PYPINYIN_NO_PHRASES 和 PYPINYIN_NO_DICT_COPY 来节省内存。详见文档

更多 FAQ 详见文档中的 FAQ 部分。

拼音数据

单个汉字的拼音使用 pinyin-data 的数据
词组的拼音使用 phrase-pinyin-data 的数据
声母和韵母使用《汉语拼音方案》的数据

Related Projects

hotoo/pinyin: 汉字拼音转换工具 Node.js/JavaScript 版。
mozillazg/go-pinyin: 汉字拼音转换工具 Go 版。
mozillazg/rust-pinyin: 汉字拼音转换工具 Rust 版。

python-pinyin's People

Contributors

Stargazers

Watchers

Forkers

timedcy linphy biobeyoung inspirelife saturnisbig wuxqing alexhe baiyunping333 surpassing flyh2004 bopo sparderwee cipherchen easonyi xuh5156 jeffzhengye apanly aviatorbeijing 743v45 wwwcs59 chenghao yygcom fifa0329 chenkovsky jeremy886 ver007 suanmei-tang mingstar icaas wangjun 1f9763 jinyeqiong leung1024 yeshaoting nsrgs bluelich javacym johnabc zhaochl gitter-badger skywind0218 xiazhaokang odirus peipei1109 wqw547243068 xinghudamowang maruchen ii0 ghs2015 aisq2008 bwboy jeffbluz cccsmoking cedarz gumblex flniu m4tth2w artoria2e5 kilakila-heart zlzw garfield-chen fltfh tyrbonit zhuanghoward shizihao123 zllword cgy1989 lumia70 quantumghost wangpeng138375 hellkimi xy-liao zaqzrh jwwplus gangh jellyfrank bobohuang zuijiawoniu chen-jianghang moterhub bpig jiashaoyong 277800076 chroming angelaying jn7163 jun7th sighsmile tungmy menglgjava fjkfwz yuan39 dacson shyboylpf lizho zgsxwsdxg iamblinking hanvoo99 techperfect gybta

python-pinyin's Issues

有选项能不把ü转成v吗？如绿色lv se

虽然v可以在python中轻易转换，不过还是想问一下，是不是有办法不用lv se(绿色)，而用lü se，我是中文教师，如果用lv会和一般教材产生不统一的问题。

这个工具是我最爱用的python工具之一，非常感谢!

支持命令行命令

$ pypinyin 你好
nǐ hǎo

将国际音标字母替换为 ASCII 字母

检查拼音库和词典库。
ref:

内置的分词功能有问题无法正确处理包含空格的字符串

实际上是分词算法有问题，需要重写分词算法。

某些两个汉字的词转换得到一个粘连的长音节

首先谢谢提供如此便利的汉字转拼音工具

近日在使用时遇到这样的问题

>>> from pypinyin import lazy_pinyin
>>> lazy_pinyin('彷徨')
['panghuang']

预想得到的应该是['pang', 'huang']?
我的环境是Python 3.5.1, pypinyin 0.12.0

TONE2 未标轻声

如“打量”，输出 [['da3'], ['liang']]，文档中写“用数字 [0-4] 进行表示”。这种情况除了 ü 都有。请问该修文档还是程序行为？

精简现有的词组拼音库

只保留『有多音字的词组』，没有多音字的词组以普通的拼音转换即可。
ref: hotoo/pinyin#23

use class style instead of function style

class Pinyin(object):
    def __init__(self, ...):
        pass
    def pinyin(self, hans):
       pass
    # ...

# Backward compatibility
def pinyin(hans, ....):
    return Pinyin(...).pinyin(hans)

内部方法命名：phrases_pinyin 应该是单个 phrase 才对？

一些多音字会注解错误

『卡』字的拼音总是注音成 qia
网卡
显卡

『莎』suo
浪莎

在汉语和别的语言并存的情况下，能仅处理汉语吗

分词接口

在做一个给汉字添加拼音的功能，但是基于现有的接口没有办法把中英混合的字mapping上。

可否提供接口实现：

lazy_pinyin(u'你好abc☆☆')
#[u'ni', u'hao', 'a', 'b', 'c', u'\u2606', u'\u2606']

或者暴露出来分词的接口，这样能够mapping上，或者直接能够返回一个dict

希望词库可以支持TONE2的注音

这样使用者方便加入拼音，带音标的字母比较难输入

请正确设置 RTFD 文档语言为中文

参见 https://docs.readthedocs.io/en/latest/localization.html?highlight=language

增加训练结巴分词按词语分词的辅助函数

如果使用结巴分词来处理多音字，可以在使用前先调用这个函数来训练结巴的词库。

多音字问题

我发现有些字不是多音字也识别为多音字了，请问怎么避免这种情况呢

pinyin(u'分', heteronym=True)

fēn
fèn
fén
bàn

pinyin(u'平', heteronym=True)

píng
pián
bìng
bēng

允许不自动使用 jieba 进行分词

先有的功能下，如果系统内有安装 jieba 的话，
pinyin(u'你好') 会自动调用 jieba 进行分词，只能通过 pinyin([u'你好']) 的方式进行禁用。

TO3NE 或 TONE3

https://github.com/hotoo/pinyin 的实现是：

TONE 标准声调风格
TONE2 声调以数字形式在末尾的风格（当初我这样命名的原因）
TO3NE 声调以数字形式在中间的风格

详见：hotoo/pinyin#79

考虑是否改为它这种风格。

单字母声母的汉字的INITIALS格式下输出为空

比如汉字“网”
按照顺序输出应该是 w w wang wa3ng
但是实际上的输出是 w wang wa3ng
声母部分为空，测试了好几个单字母声母的汉字都是这样的情况

内置简单的分词处理

将传入的字符串按是否有拼音来分割：

'你好吗にほんごРусский язык我很好'  -> ['你好吗', 'にほんごРусский язык', '我很好']

目前结巴分词结果是：

'你好吗にほんごРусский язык我很好'  -> ['你好吗', 'に', 'ほ', 'ん', 'ご', 'Р', 'у', 'с', 'с', 'к', 'и', 'й', ' ', 'я', 'з', 'ы', 'к', '我很好']

ref:
#16
#17

https://github.com/mozillazg/python-pinyin/blob/master/pypinyin/__init__.py#L256

汉语和字母混合时字母后面的汉字不转换

pip install jieba
pip install pypinyin
from pypinyin import pinyin, lazy_pinyin
print lazy_pinyin(u'黄山B股')
[u'huang', u'shan', u'B', u'\u80a1']

分词应加入用户词典的词汇，发生读取词典后依然显示错误的情况

load_phrases_dict({u'弹力素': [[u'tan'], [u'li'], u['su']]})
print lazy_pinyin(u'弹力素', style=NORMAL, errors=handle_error)

Output: [u'dan', u'li', u'su']

是分词的问题。把弹力素切成两个词了。只加入'弹力'就好了。
但是希望能把用户词典里的词能添加到结巴中当做单独的词汇。

"你明天在上海吗"识别不正确

res = pinyin(u'你明天在上海吗', style=pypinyin.TONE)
for word in res:
    print word[0]

结果如下

nǐ
míng
tiān
zài
shàng
hǎi
má

最后那个“吗”字拼音错了，感觉是常见字，不应该出错

磅礴地产，丽水园茶坊(成都市华厦)

返回的是[[u'bang'], [u'bo'], [u'de'], [u'chan']]

实际应该是：pang, bo, di, chan

print pinyin(u'丽水园茶坊(成都市华厦)',pypinyin.NORMAL)
[[u'li'], [u'shui'], [u'yuan'], [u'cha'], [u'fang'], [u'('], [u'cheng'], [u'dou'], [u'shi'], [u'hua'], [u'sha'], [u')']]
成都读音不对

这句的转换有重复，可能是bug

>>> s=u"两年前七斤喝醉了酒"
>>> pypinyin.lazy_pinyin(s)
[u'liang', u'nian', u'qian', u'qi', u'jin', u'he', u'zui', u',he', u'zui', u'jiu', u'liao', u'jiu']

结果中多了u',he', u'zui', u'jiu', 应该是bug

node版本没有这个问题：

> var pinyin = require("pinyin");
undefined
> s='你好了解了'
'你好了解了'
> pinyin(s)
[ [ 'nǐ' ], [ 'hǎo' ], [ 'liǎo' ], [ 'jiě' ], [ 'liǎo' ] ]
> s='两年前七斤喝醉了酒'
'两年前七斤喝醉了酒'
> pinyin(s)
[ [ 'liǎng' ],
  [ 'nián' ],
  [ 'qián' ],
  [ 'qī' ],
  [ 'jīn' ],
  [ 'hē' ],
  [ 'zuì' ],
  [ 'liǎo' ],
  [ 'jiǔ' ] ]

“狼”没有识别

>>> pypinyin.pinyin("狼")
[['狼']]

支持自定义拼音库

testing of load_phrases_dict

load_phrases_dict({'几': [['jǐ']]})
load_phrases_dict({'桔子': [['jú'], ['zǐ']]})
load_phrases_dict({'还没': [['hái'], ['méi']]})
load_phrases_dict({'不用谢':[['bú'], ['yòng'],['xiè']]})

Output
不用谢(bú yòng xiè)
桔子(jú zǐ)
还没(huán méi)
几(jǐ)

So 还没 is incorrect. Why?

去除对 jieba 的依赖，将分词交由用户处理

用户可以选择使用自己喜爱的分词模块，只需要将经过分词模块处理的结果传给 pypinyin 就可以了：

hans = seg(u'你好吗')  # 分词模块返回一个列表: [u'你好', u'吗']
pypinyin.pinyin(hans)   # pinyin

关于分词

core.py中的pinyin 方法
for words in hans:
pys.extend(_pinyin(words, style, heteronym, errors))
这个地方用的是extend，导致即使使用了jieba分词，分出来的结果还是返回一个一个汉字的拼音list
区别不出来那几个是一个词语，跟没分一样。。

“了”没有音调？

我试了下面的code：

print(lazy_pinyin("了",style=1))      #['le']
print(pinyin("了",style=1))           #[['le']]

请问这是一个bug吗？😉

STYLE_BOPOMOFO（注音符号）

对岸常用的注音符号是可以从拼音数据转换出来的，至于语文标准审定字音那也不是这个项目的事情。

可以参考 https://github.com/The-Orizon/nlputils/blob/master/libpinyin_bopomofo.py 的转换（我也不知道 tone2 是什么格式，本来看文档还以为是 to2ne 呢）。

Style	Desc
STYLE_BOPOMOFO	普通的带声调注音。注音的声调永远在最后，阴平（第一声）不标。
STYLE_BOPOMOFO_NOTONE	没声调。

注音本身可以说有类似双拼的特性。

增加一个参数用来控制如何处理没有拼音的字符

类似 str.encode() 方法的 errors 参数。

'default': 保留原始字符
'ignore': 忽略该字符
'replace': 替换为去掉 \u 的 unicode 编码字符串（u'\u90aa' => u'90aa'）

只处理 [^a-zA-Z0-9_] 字符。

"厦门" convert to 'shamen'

when use pypinyin.lazy_pinyin or pypinyin.pinyin, it transform '厦门' to 'shamen', but the right output is 'xiamen'

命令行程序支持管道输入

$ echo "你好" | pypinyin
nǐ hǎo

“妳”读音错误

>>> from pypinyin import pinyin
>>> pinyin('你会')
[['nǐ'], ['huì']]
>>> pinyin('妳會')
[['nǎi'], ['huì']]

maybe a bug - 苹果 => pin guo

import pypinyin
zi = '苹果'
py = pypinyin.slug(zi, style=pypinyin.NORMAL, separator=' ')
Building Trie..., from /usr/local/lib/python3.4/site-packages/jieba/dict.txt
loading model from cache /var/folders/k9/47fd1ycj2rg19gn7d2g5g16c0000gn/T/jieba.cache
loading model cost 2.451965808868408 seconds.
Trie has been built succesfully.
print(py)
pin guo

What I was looking for is "ping guo".

Do we use a conversion table in python-pinyin? I probably should search for it before asking. If yes, I'm interested in this table.

贾姓拼音有误

How to obtain the mapping of characters and pinyin?

I need strict mapping between the input and output, how can i do?

>> lazy_pinyin('你好')
['ni', 'hao'] # i need {'你': 'ni', '好': 'hao'}

cc @mozillazg

是否支持训练功能？

In [12]: pinyin("中心")
Out[12]: [['zhōng'], ['xīn']]

In [13]: pinyin("重心")
Out[13]: [['zhòng'], ['xīn']]

In [14]: pinyin("情调来调整风格")
Out[14]: [['qíng'], ['diào'], ['lái'], ['diào'], ['zhěng'], ['fēng'], ['gé']]

In [15]: pinyin("调整风格")
Out[15]: [['diào'], ['zhěng'], ['fēng'], ['gé']]

In [16]: pinyin("调整风格")
Out[16]: [['diào'], ['zhěng'], ['fēng'], ['gé']]

In [17]: pinyin("调整")
Out[17]: [['tiáo'], ['zhěng']]

In [18]: pinyin("调薪")
Out[18]: [['diào'], ['xīn']]

分词了之后识别还是有问题
是否支持训练功能来纠正？

增加不载入词组拼音库的功能，减少内存占用

ref: hotoo/pinyin#26

更新拼音库

通过汉典网按 unicode 码获取所有的汉字和拼音（只获取有拼音的汉字）。

CJK基本:[4E00-9FFF]
CJK扩展A:[3400-4DBF]
CJK扩展B:[20000-2A6DF]
CJK扩展C:[2A700-2B73F]
CJK扩展D:[2B740-2B81D]
CJK兼容扩展:[2F800-2FA1F]
CJK兼容:[F900-FAFF]

http://www.zdic.net/sousuo/

自定义词库没有作用，需要enable吗？怎么做

from pypinyin import load_phrases_dict, lazy_pinyin, TONE2
lazy_pinyin('还没', style = TONE2)
['hua2n', 'me2i']
from pypinyin import load_phrases_dict, lazy_pinyin, TONE
lazy_pinyin('还没', style = TONE)
['huán', 'méi']
load_phrases_dict({'还没': [['hái'], ['méi']]})
lazy_pinyin('还没', style = TONE)
['huán', 'méi']

无法解析出多音字的问题

我试了几例：

pypinyin.pinyin(u'长江水长长长长长长长', style=pypinyin.NORMAL)
[[u'zhang'],
[u'jiang'],
[u'shui'],
[u'zhang'],
[u'zhang'],
[u'zhang'],
[u'zhang'],
[u'zhang'],
[u'zhang'],
[u'zhang']]
pypinyin.pinyin(u'重', style=pypinyin.NORMAL)
[[u'zhong']]

请问是我用法错误，还是缺少多音字库？

不好意思，看到参数啦：pypinyin.pinyin(u'长江水长长长长长长长', style=pypinyin.NORMAL, heteronym=True)

怎样设定让命令行直接输出无声调。。

-help里的argument总是报错

声母 Y 和 W 的问题

类似

pinyin(u'中心', style=pypinyin.INITIALS) # 设置拼音风格
[['zh'], ['x']]

代码中声母表

_INITIALS = 'b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,'.split(',')

没有y和w。如果碰到Y和W开头的字，相应的字会返回空。
例如：

pinyin(u'火影忍者', style=pypinyin.INITIALS)
[[u'h'], [u''], [u'r'], [u'zh']]

我查了下资料，有的说声母不包括Y和W，所以这个返回是正常，但这样处理导致应用不好做，只能用首字母模式替代。是否新加一个接口，加上Y和W的返回，或者，说明上告知这个情况，以免别人使用的时候碰到问题。