也许是最好的汉字数字(中文数字)-阿拉伯数字转换工具

The Best Tool of Chinese Number to Digits

Chinese2digits 是一个将中文数字（大写数字）转化为阿拉伯数字的工具。这个工具是自然语言处理系统（NLP）中非常重要的组件。常见的应用场景有:聊天机器人，知识图谱，OCR（光学字符识别）系统，等等。

Chinese2digits is tool that transfer the Numbers writen in Capital Chinese to digits number. This tool is a vital component of NLP system such as: chat robot, knowledge graph, and OCR system etc.

用例： example:

输入: 啊啦啦啦300十万你好我20万.3%万你好啊300咯咯咯-.34%啦啦啦300万
输出: takeNumberFromString 方法
{
	'inputText': '啊啦啦啦300十万你好我20万.3%万你好啊300咯咯咯-.34%啦啦啦300万', 
	'replacedText': '啊啦啦啦300.0.0100000.0你好我200000.030.0你好啊300.0.0咯咯咯-0.0034啦啦啦300.0.00000.0', 
	'CHNumberStringList': ['300', '十万', '20万', '.3%万', '300', '-.34%', '300万'], 
	'digitsStringList': ['300.0', '100000.0', '200000.0', '30.0', '300.0', '-0.0034', '3000000.0']
}

输入：伍亿柒仟万拾柒今天天气不错百分之三亿二百万五啦啦啦啦负百分之点二八你好啊三万二
输出：TakeChineseNumberFromString 方法
{
    'inputText': '伍亿柒仟万拾柒今天天气不错百分之三亿二百万五啦啦啦啦负百分之点二八你好啊三万二',
    'replacedText': '570000017今天天气不错3020050.0啦啦啦啦-0.0028你好啊32000',
    'CHNumberStringList': ['五亿七千万十七', '百分之三亿二百万五', '负百分之点二八', '三万二'],
    'digitsStringList': ['570000017', '3020050.0', '-0.0028', '32000']
}

takeNumberFromString 方法和 takeChineseNumberFromString (go 语言第一个字母大写)的主要不同在于：

takeNumberFromString会将"300三十二" 识别成2个数字"300" 和"32"; 但是 takeChineseNumberFromString 会将该数字只提取"32"。因为纯罗马数字提取。

但是，2个方法"都会"将 300万提取成 3000000, 因为这个只是中文数字表达的变种模式！

Pyhon 语言代码示例

Pyhon Example

安装

setup

pip install chinese2digits

使用

usage

import chinese2digits as c2d

#混合提取
print(c2d.takeNumberFromString('啊啦啦啦300十万你好我20万.3%万你好啊300咯咯咯-.34%啦啦啦300万'))
print(c2d.takeChineseNumberFromString('负百分之点二八你好啊百分之三五是不是点伍零百分之负六十五点二八'))

#将百分比转为小数
print(c2d.takeDigitsNumberFromString('234%lalalal-%nidaye+2.34%',percentConvert=True))


#案例

{'inputText': '啊啦啦啦300十万你好我20万.3%万你好啊300咯咯咯-.34%啦啦啦300万', 'replacedText': '啊啦啦啦300.0.0100000.0你好我200000.030.0你好啊300.0.0咯咯咯-0.0034啦啦啦300.0.00000.0', 'CHNumberStringList': ['300', '十万', '20万', '.3%万', '300', '-.34%', '300万'], 'digitsStringList': ['300.0', '100000.0', '200000.0', '30.0', '300.0', '-0.0034', '3000000.0']}

{'inputText': '234%lalalal-%nidaye+2.34%', 'digitsNumberStringList': ['2.34', '0.0234']}

{'inputText': '百分之四百三十二万分之四三千分之五', 'replacedText': '4.320.00430.005', 'CHNumberStringList': ['百分之四百三十二', '万分之四三', '千分之五'], 'digitsStringList': ['4.32', '0.0043', '0.005']}

{'inputText': '伍亿柒仟万拾柒今天天气不错百分之三亿二百万五啦啦啦啦负百分之点二八你好啊三万二', 'replacedText': '570000017今天天气不错3020050.0啦啦啦啦-0.0028你好啊32000', 'CHNumberStringList': ['五亿七千万十七', '百分之三亿二百万五', '负百分之点二八', '三万二'], 'digitsStringList': ['570000017', '3020050.0', '-0.0028', '32000']}

{'inputText': 'llalala万三威风威风千四五', 'replacedText': 'llalala0.0003威风威风0.045', 'CHNumberStringList': ['万三', '千四五'], 'digitsStringList': ['0.0003', '0.045']}

{'inputText': '哥两好', 'replacedText': '哥两好', 'CHNumberStringList': [], 'digitsStringList': []}

{'inputText': '伍亿柒仟万拾柒百分之', 'replacedText': '570000017百分之', 'CHNumberStringList': ['五亿七千万十七'], 'digitsStringList': ['570000017']}

{'inputText': '负百分之点二八你好啊百分之三五是不是点五零百分之负六十五点二八', 'replacedText': '-0.0028你好啊0.35是不是0.50-0.6528', 'CHNumberStringList': ['负百分之点二八', '百分之三五', '点五零', '百分之负六十五点二八'], 'digitsStringList': ['-0.0028', '0.35', '0.50', '-0.6528']}

Go 语言代码示例

GoLang Example

package main

import (
	"fmt"
	"./chinese2digits"
)

func main() {
	fmt.Println(chinese2digits.TakeNumberFromString("伍亿柒仟万拾柒今天天气不错百分之三亿二百万五啦啦啦啦负百分之点二八你好啊三万二"))
	fmt.Println("输入：伍亿柒仟万拾柒今天天气不错百分之三亿二百万五啦啦啦啦负百分之点二八你好啊三万二")
	fmt.Println("输出：TakeChineseNumberFromString 方法")
}

Rust 语言代码示例

Rust Example

安装

Setup

添加如下代码到

Add this to your Cargo.toml:

[dependencies]
chinese2digits = "1"

使用

Usage

use chinese2digits::take_number_from_string;

//混合提取
let string_example = "百分之5负千分之15".to_string();
//第二个开关为 百分比转换开关，是否把百分号转换为小鼠  第三个开关为繁体转简体强制开关，是否强制转换
let test_result = take_number_from_string(&string_example, true, true);
assert_eq!(test_result.replaced_text, "0.05-0.015");
assert_eq!(test_result.ch_number_string_list, vec!["百分之5", "负千分之15"]);
assert_eq!(test_result.digits_string_list, vec!["0.05", "-0.015"]);

更新时间

Update Time

2023-03-26

修复一兆韦德 bug "兆" 不做普通单位识别，
修复二〇二三 bug 可以正确识别为2023

2021-11-22

RUST 版本上线！！
重大优化:重构一些核心算法，提升计算效率

2021-11-10

修复小数点右边出现零零三四的情况，可以正确转换三百十四点零零三四为 340.0034
增加单元测试用例

2020-11-19

修复Bug:无法处理 1.55万这种

2020-11-02

重大更新及接口更新
不再需要simpilify 规则可以识别更加复杂的混合四百三十儿分之43 30万2千这种
修复bug: 判断当前的汉字与后一个提取的汉子数字是否是连续的在原始字符串出现的，如果非连续就出现了问题比如 7分之前三四五
4分之三 4百分之一混合识别及减少误识别
升级正则，提供一个混合提取的正则表达式
七点十分之前不会误识别
最后的.0 去掉精确地展示整数
Go语言精简接口
增加单元测试方法方便开发

2020-05-31

升级可以识别万分之10 这种汉字数字混合
Go语言正则升级

2019-12-25

升级可以识别300万 .3千 .50%万数字汉字混合识别
将所有汉字数字与罗马数字提取
新增方法 takeNumberFromString，一次性地将所有罗马，中文，罗马中文混合数字全部提取

2019-12-9

更新正则引擎，采用RE2规则，不会出现长文本的递归炸弹
go语言也有正则引擎
完成万三，千四五这种简称识别

2019-11-27

修复四千三五亿七千万十七等简写单位的识别
增加繁体简体转换
解决两,俩识别问题

2019-10-07

解决一千八百万的识别问题即多个单位的组合和跨越组合

2019-06-02

提交到PIP 可以使用pip 安装

2019-02-22

用Python3 重写了算法并增加了正则切割引擎

2018-07-26

增加千千万万万科这种不合法词汇的校验

2018-07-07

首次提交

TODO

两千二,三千十四非标准表述
繁体简体转换
万三,千四五词汇的理解和转换
正则引擎升级,使用顺序逻辑引擎,使用GO语言默认的正则库
数字汉字混合模式:300万
将所有汉字数字与罗马数字提取
新增方法 takeNumberFromString，一次性地将所有罗马，中文，罗马中文混合数字全部提取
RUST 版本上线

好用记得Fork and Star。

If you need the code in JavaScript,just send me message, fork and star~~

License

chinese2digits is licensed under the Apache License 2.0.

一些不合理case反馈

假设我有一个标准的文本：

明天见 我的车牌号是7G02D 白色的INSPIRE

如果使用：takeChineseNumberFromString，这个方法，会先提取文本中的数字，转成中文。

CHNumberStringListTemp = takingChineseDigitsMixRERules.findall(convertedCHString)
['7', '02']
['七', '零二']

会被转换成

[('02', '2', 2), ('7', '7', 1)]

最终转换的结果变成，

明天见 我的车牌号是7G2D 白色的INSPIRE

你看看这块要不要加一个判断，如果是字母和数字共同出现，不需要转换。如果是\d+[wk]，可以转换

convertedCHString = traditionalTextConvertFunc(chText,traditionalConvert)
    """
    字符串 汉字数字字符串切割提取
    正则表达式方法
    """
    # TODO  check digits-alphabet-mixed， skip
    
    CHNumberStringListTemp = takingChineseDigitsMixRERules.findall(convertedCHString)
    print(CHNumberStringListTemp)
    #检查是不是  分之 切割不完整问题
    CHNumberStringListTemp = checkNumberSeg(CHNumberStringListTemp,convertedCHString)
    print(CHNumberStringListTemp)
    #检查末位是不是正负号
    CHNumberStringListTemp = checkSignSeg(CHNumberStringListTemp)
    print(CHNumberStringListTemp)
    #备份一个原始的提取，后期处结果的时候显示用
    OriginCHNumberTake = CHNumberStringListTemp.copy()

还是说建议自己在使用前做好替换，跳过转换，而不是交给这个包做决策

wall-ee / chinese2digits Goto Github PK

chinese2digits's Introduction

也许是最好的汉字数字(中文数字)-阿拉伯数字转换工具

The Best Tool of Chinese Number to Digits

Pyhon 语言代码示例

Pyhon Example

安装

setup

使用

usage

Go 语言代码示例

GoLang Example

Rust 语言代码示例

Rust Example

安装

Setup

使用

Usage

更新时间

Update Time

TODO

License

chinese2digits's People

Contributors

Stargazers

Watchers

Forkers

chinese2digits's Issues

In [1]: from chinese2digits import c2d

Recommend Projects

Recommend Topics

Recommend Org