hiroi-sora / umi-ocr Goto Github PK

View Code? Open in Web Editor NEW

21.2K 119.0 2.1K 166.01 MB

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

License: MIT License

Python 48.67% Batchfile 0.02% QML 51.31%

paddleocr ocr ocr-python

umi-ocr's Introduction

中文 • English • 日本語

Umi-OCR 文字识别工具

使用说明 • 下载地址 • 更新日志 • 提交Bug

免费，开源，可批量的离线OCR软件
_{适用于 Windows7 x64 及以上}

免费：本项目所有代码开源，完全免费。
方便：解压即用，离线运行，无需网络。
高效：自带高效率的离线OCR引擎，内置多种语言识别库。
灵活：支持命令行、HTTP接口等外部调用方式。
功能：截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别（测试中）

截图识别
- 排版解析 - 识别不同排版，按正确顺序输出文字
批量识别
- 忽略区域 - 排除截图水印处的文字
二维码支持扫码或生成二维码图片
文档识别从PDF扫描件中提取文本，或转为双层可搜索PDF
全局设置
命令行调用
HTTP接口
构建项目

使用源码

开发者请务必阅读构建项目。

下载发行版

以下发布链接均长期维护，提供最新软件版本。

蓝奏云 https://hiroi-sora.lanzoul.com/s/umi-ocr （国内推荐，免注册/无限速）
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
Source Forge https://sourceforge.net/projects/umi-ocr

• Scoop Installer（点击展开）

Scoop 是一款Windows下的命令行安装程序，可方便地管理多个应用。您可以先安装 Scoop ，再使用以下指令安装 Umi-OCR ：

添加 extras 桶：

scoop bucket add extras

（可选1）安装 Umi-OCR（自带 Rapid-OCR 引擎，兼容性好）：

scoop install extras/umi-ocr

（可选2）安装 Umi-OCR（自带 Paddle-OCR 引擎，速度稍快）：

scoop install extras/umi-ocr-paddle

不要同时安装二者，快捷方式可能会被覆盖。但您可以额外导入插件，随时切换不同OCR引擎。

开始使用

软件发布包下载为 .7z 压缩包或 .7z.exe 自解压包。自解压包可在没有安装压缩软件的电脑上，解压文件。

本软件无需安装。解压后，点击 Umi-OCR.exe 即可启动程序。

遇到任何问题，请提 Issue ，我会尽可能帮助你。

界面语言

Umi-OCR 支持的界面多国语言。在第一次打开软件时，将会按照你的电脑的系统设置，自动切换语言。

如果需要手动切换语言，请参考下图，全局设置→语言/Language 。

标签页

Umi-OCR v2 由一系列灵活好用的标签页组成。您可按照自己的喜好，打开需要的标签页。

标签栏左上角可以切换窗口置顶。右上角能够锁定标签页，以防止日常使用中误触关闭标签页。

截图OCR

截图OCR：打开这一页后，就可以用快捷键唤起截图，识别图中的文字。

左侧的图片预览栏，可直接用鼠标划选复制。
右侧的识别记录栏，可以编辑文字，允许划选多个记录复制。
也支持在别处复制图片，粘贴到Umi-OCR进行识别。

文本后处理

关于 OCR文本后处理 - 排版解析方案：可以整理OCR结果的排版和顺序，使文本更适合阅读和使用。预设方案：

多栏-按自然段换行：适合大部分情景，自动识别多栏布局，按自然段规则进行换行。
多栏-总是换行：每段语句都进行换行。
多栏-无换行：强制将所有语句合并到同一行。
单栏-按自然段换行/总是换行/无换行：与上述类似，不过不区分多栏布局。
单栏-保留缩进：适用于解析代码截图，保留行首缩进和行中空格。
不做处理：OCR引擎的原始输出，默认每段语句都进行换行。

上述方案，均能自动处理横排和竖排（从右到左）的排版。（竖排文字还需要OCR引擎本身支持）

批量OCR

批量OCR：这一页用于批量导入本地图片进行识别。

支持格式：jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff。
保存识别结果的支持格式：txt, jsonl, md, csv(Excel)。
与截图OCR一样，支持文本后处理功能，整理OCR文本的排版和顺序。
没有数量上限，可一次性导入几百张图片进行任务。
支持任务完成后自动关机/待机。
如果要识别像素超大的长图或大图，请调整：页面的设置→文字识别→限制图像边长→【调高数值】。
拥有特殊功能 忽略区域 。

忽略区域

关于 OCR文本后处理 - 忽略区域：批量OCR中的一种特殊功能，适用于排除图片中的不想要的文字。

在批量识别页的右栏设置中可进入忽略区域编辑器。
如上方样例，图片顶部和右下角存在多个水印 / LOGO。如果批量识别这类图片，水印会对识别结果造成干扰。
按住右键，绘制多个矩形框。这些区域内的文字将在任务中被忽略。
请尽量将矩形框画得大一些，完全包裹住水印所有可能出现的位置。

文档识别

文档识别：

支持格式：pdf, xps, epub, mobi, fb2, cbz。
对扫描件进行OCR，或提取原有文本。可输出为 双层可搜索PDF 。
支持设定 忽略区域 ，可用于排除页眉页脚的文字。
可设置任务完成后 自动关机/休眠 。

二维码

扫码：

截图/粘贴/拖入本地图片，读取其中的二维码、条形码。
支持一图多码。
支持19种协议，如下：

Aztec,Codabar,Code128,Code39,Code93,DataBar,DataBarExpanded,DataMatrix,EAN13,EAN8,ITF,LinearCodes,MatrixCodes,MaxiCode,MicroQRCode,PDF417,QRCode,UPCA,UPCE

生成码：

输入文本，生成二维码图片。
支持19种协议和纠错等级等参数。

全局设置

全局设置：在这里可以调整软件的全局参数。常用功能如下：

一键添加快捷方式或设置开机自启。
更改界面语言。Umi支持繁中、英语、日语等语言。
切换界面主题。Umi拥有多个亮/暗主题。
调整界面文字的大小和字体。
切换OCR插件。
渲染器：软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI错位的情况，请调整界面和外观 → 渲染器 ，尝试切换到不同渲染方案，或关闭硬件加速。

调用接口：

命令行手册： README_CLI.md
HTTP接口手册： README_HTTP.md

软件本地化翻译：

感谢以下译者，为 Umi-OCR 贡献了本地化翻译工作：（排名不分先后）

译者	贡献语言
bob	English, 繁體中文, 日本語
Qingzheng Gao	English, 繁體中文
Weng, Chia-Ling	English, 繁體中文
linzow	English, 繁體中文
Eric Guo	English
plum7x	繁體中文
ドコモ光	日本語

如果有信息错误或人员缺漏，请在这个讨论中回复。

本项目使用在线平台 Weblate: Umi-OCR 进行本地化翻译协作。我们欢迎任何用户参与翻译工作，您可校对、补充现有语言，或添加新语言。

关于项目结构

各仓库：

工程结构：

** 后缀表示本仓库(主仓库)包含的内容。

Umi-OCR
├─ Umi-OCR.exe
└─ UmiOCR-data
   ├─ main.py **
   ├─ version.py **
   ├─ site-packages
   │  └─ python包
   ├─ runtime
   │  └─ python解释器
   ├─ qt_res **
   │  └─ 项目qt资源，包括图标和qml源码
   ├─ py_src **
   │  └─ 项目python源码
   ├─ plugins
   │  └─ 插件
   └─ i18n **
      └─ 翻译文件

支持的离线OCR引擎：

运行环境框架：

PyStand 定制版

构建项目

第零步：（可选）fork本项目

第一步：下载代码

请参考更新日志开头的说明。

后续步骤：

对于不同平台（虽然现在只有Windows），需要不同的运行环境。

Windows
跨平台的支持筹备中

请跳转上述仓库，完成对应平台的开发/运行环境部署。

本项目也拥有非常简易的一键打包脚本，在以上仓库中查看。

开发计划

已完成的工作

标签页框架。
OCR API控制器。
OCR 任务控制器。
主题管理器，支持切换浅色/深色主题主题。
实现 批量OCR。
实现 截图OCR。
快捷键机制。
系统托盘菜单。
文本块后处理（排版优化）。
引擎内存清理。
软件界面多国语言。
命令行模式。
Win7兼容。
Excel（csv）输出格式。
Esc中断截图操作
外置主题文件
字体切换
加载动画
忽略区域。
二维码识别。
批量识别页面的图片预览窗口。
PDF识别。
调用本地图片浏览器打开图片。 #335
重复上一次截图。 #357
修Bug：文档识别在Windows7系统的兼容性问题。
HTTP/命令行接口添加二维码识别/生成功能。 (#423)
二维码接口的文档。

即将进行的工作

重构底层插件机制。
在线 OCR API 插件。
独立的数学公式识别插件。

远期计划

展开

这些是预想中的功能，在开发初期已预留好接口，将在远期慢慢实现。

但开发途中受限于实际情况，可能更改功能设计、新增及取消功能。

“数学公式”标签页，提供独立的数学公式识别/Latex渲染。
检查更新机制。
排版解析之外的文本后处理模块（如保留数字、半全角字符转换、文本纠错）。
关键接口函数添加事件触发方式。
基于GPU的离线OCR。
图片翻译
离线翻译。
固定区域识别。
识别表格图片，输出为Excel。
历史记录系统。
兼容 MacOS / Ubuntu 等平台。

umi-ocr's People

Contributors

Stargazers

Watchers

Forkers

beckzhang123 ruikai0103 lioarther catcat0921 fengdaokanhai vincentchangcaoliu2018 crackercat bailizheng hlshen888 xxdoc taozywu woqq111 zhengzhouhao sairupe moodykeke cslily zhupite233 lfyg ghplvh l342723951 mofanx zengpengkindle mmqqll btx638 wemecan arnoldzhou ydekq jeff-cn haifenghuang sunshinehome fodereas yeyinghai wyl2000 realbra maxpark selfcan waifei01 doingself gaony1113 lwd-temp 76782875 tyronebj zzrvv red-movie-of-china lzf577 cufelouis honhwa wusir1122 trustme2016 onejune2018 lilianxiang chenshiren168 ren98feng longnane jackerboy java2job hoyou06 manjiajie trytrytogo brooklet5257 aimintao cfwvip fanpest burtton99 kristiansong rocching scq0123 oboboyes gukey echoxiawan cevencheng chuabo livinfly hhxlrm windilt derektso devhitfrank xiaomao996688 livingbody huyuejingling nonomal laikey zhechen1999 jo-dean cly88 yufeixuan alekzkane-illusion ganjunhong beanslee2012 swtxpoi jecky100000 teleepoch dylan-jiang linan15 kuaizi woshangfenglove usaroma z-kf almightyplayer zxysm

umi-ocr's Issues

文本是从右向左该怎么设置参数呢？

繁体竖排虽然可以正确识别，但似乎还是从左向右输出，有没有参数设置可以让输出从右向左呢？

能否添加OCR扫描版pdf文档功能

现实操作中，除了直接操作图片外，也有不少扫描过的pdf文档，不能直接提取文字。需要先转化成图片再OCR。如果能在打开文件夹选取图片时多加一个pdf类型，并在开始任务时自动先转化成临时同名图片文件，任务完成后再自动删除临时图片文件，那就厉害了！这个建议可能有点过高，作者量力而行就是了，谢谢！

建议增加类似QQ截图中截长图的功能

最近用这个软件识别腾讯会议的参会人员，用截长图功能会方便很多，如果您觉得有必要，并有时间的话，可以考虑增加下截长图功能哦~

【系统路径缺失】无法完成初始化，PaddleOCR-json.exe报错chcp不是内部或外部命令

您好今天使用卡初始化了不知道什么原因

大佬请教一下如何提高英文识别效果

目前正在使用1.3.0版本配合纯英v3 rec模型，目前识别的格式较为单一，以英文、符号为主，偶有数字，目前效果不错。
但是有个问题是在单个识别的情况下容易漏字符，比如逗号容易识别不到、“&”识别成“8”之类的错误比较常见，但是批量识别的情况下错误几率会低很多。
想请教下这种情况怎么可以改善一下？麻烦大佬有时间帮忙解答一下我的疑惑，谢谢。

OS 名称: Microsoft Windows 11 专业版
OS 版本: 10.0.22000 暂缺 Build 22000
OS 制造商: Microsoft Corporation
OS 配置: 独立工作站
OS 构建类型: Multiprocessor Free
系统制造商: AZW
系统型号: GTR
系统类型: x64-based PC
处理器: AMD64 Family 25 Model 80 Stepping 0 AuthenticAMD ~3301 Mhz

在1.2.6的版本中，点击”录制按键“，软件会出现短暂的卡死。
建议增加可以后台运行，当前点击关闭按键，软件就直接被关闭
建议增加截图识别功能，可以截取选择需要识别的区域
增加开机自动启动，虽然当前可以自己设置。

建议添加 MIT License 以方便 Scoop 收录

首先感谢作者大大的作品，我很喜欢。

另外，我正在向 Scoop 的 Extra 桶提交本应用，建议添加一份开源 License 以方便 Scoop 收录，我建议 MIT License。

v1.2.6初始化失败（系统语言不兼容问题）

e[37m---    fused 0 elementwise_add with relu activatione[0m
e[37m---    fused 0 elementwise_add with tanh activatione[0m
e[37m---    fused 0 elementwise_add with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_add with swish activatione[0m
e[37m---    fused 0 elementwise_add with hardswish activatione[0m
e[37m---    fused 0 elementwise_add with sqrt activatione[0m
e[37m---    fused 0 elementwise_add with abs activatione[0m
e[37m---    fused 0 elementwise_add with clip activatione[0m
e[37m---    fused 0 elementwise_add with gelu activatione[0m
e[37m---    fused 0 elementwise_add with relu6 activatione[0m
e[37m---    fused 0 elementwise_add with sigmoid activatione[0m
e[37m---    fused 0 elementwise_sub with relu activatione[0m
e[37m---    fused 0 elementwise_sub with tanh activatione[0m
e[37m---    fused 0 elementwise_sub with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_sub with swish activatione[0m
e[37m---    fused 0 elementwise_sub with hardswish activatione[0m
e[37m---    fused 0 elementwise_sub with sqrt activatione[0m
e[37m---    fused 0 elementwise_sub with abs activatione[0m
e[37m---    fused 0 elementwise_sub with clip activatione[0m
e[37m---    fused 0 elementwise_sub with gelu activatione[0m
e[37m---    fused 0 elementwise_sub with relu6 activatione[0m
e[37m---    fused 0 elementwise_sub with sigmoid activatione[0m
e[37m---    fused 0 elementwise_mul with relu activatione[0m
e[37m---    fused 0 elementwise_mul with tanh activatione[0m
e[37m---    fused 0 elementwise_mul with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_mul with swish activatione[0m
e[37m---    fused 0 elementwise_mul with hardswish activatione[0m
e[37m---    fused 0 elementwise_mul with sqrt activatione[0m
e[37m---    fused 0 elementwise_mul with abs activatione[0m
e[37m---    fused 0 elementwise_mul with clip activatione[0m
e[37m---    fused 0 elementwise_mul with gelu activatione[0m
e[37m---    fused 0 elementwise_mul with relu6 activatione[0m
e[37m---    fused 0 elementwise_mul with sigmoid activatione[0m
e[37m---    fused 0 elementwise_add with relu activatione[0m
e[37m---    fused 0 elementwise_add with tanh activatione[0m
e[37m---    fused 0 elementwise_add with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_add with swish activatione[0m
e[37m---    fused 0 elementwise_add with hardswish activatione[0m
e[37m---    fused 0 elementwise_add with sqrt activatione[0m
e[37m---    fused 0 elementwise_add with abs activatione[0m
e[37m---    fused 0 elementwise_add with clip activatione[0m
e[37m---    fused 0 elementwise_add with gelu activatione[0m
e[37m---    fused 0 elementwise_add with relu6 activatione[0m
e[37m---    fused 0 elementwise_add with sigmoid activatione[0m
e[37m---    fused 0 elementwise_sub with relu activatione[0m
e[37m---    fused 0 elementwise_sub with tanh activatione[0m
e[37m---    fused 0 elementwise_sub with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_sub with swish activatione[0m
e[37m---    fused 0 elementwise_sub with hardswish activatione[0m
e[37m---    fused 0 elementwise_sub with sqrt activatione[0m
e[37m---    fused 0 elementwise_sub with abs activatione[0m
e[37m---    fused 0 elementwise_sub with clip activatione[0m
e[37m---    fused 0 elementwise_sub with gelu activatione[0m
e[37m---    fused 0 elementwise_sub with relu6 activatione[0m
e[37m---    fused 0 elementwise_sub with sigmoid activatione[0m
e[37m---    fused 0 elementwise_mul with relu activatione[0m
e[37m---    fused 0 elementwise_mul with tanh activatione[0m
e[37m---    fused 0 elementwise_mul with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_mul with swish activatione[0m
e[37m---    fused 0 elementwise_mul with hardswish activatione[0m
e[37m---    fused 0 elementwise_mul with sqrt activatione[0m
e[37m---    fused 0 elementwise_mul with abs activatione[0m
e[37m---    fused 0 elementwise_mul with clip activatione[0m
e[37m---    fused 0 elementwise_mul with gelu activatione[0m
e[37m---    fused 0 elementwise_mul with relu6 activatione[0m
e[37m---    fused 0 elementwise_mul with sigmoid activatione[0m
0 : Active code page: 65001

1 : OCR init completed.

初始化成功！
e[37m---    fused 0 elementwise_add with relu activatione[0m
e[37m---    fused 0 elementwise_add with tanh activatione[0m
e[37m---    fused 0 elementwise_add with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_add with swish activatione[0m
e[37m---    fused 0 elementwise_add with hardswish activatione[0m
e[37m---    fused 0 elementwise_add with sqrt activatione[0m
e[37m---    fused 0 elementwise_add with abs activatione[0m
e[37m---    fused 0 elementwise_add with clip activatione[0m
e[37m---    fused 0 elementwise_add with gelu activatione[0m
e[37m---    fused 0 elementwise_add with relu6 activatione[0m
e[37m---    fused 0 elementwise_add with sigmoid activatione[0m
e[37m---    fused 0 elementwise_sub with relu activatione[0m
e[37m---    fused 0 elementwise_sub with tanh activatione[0m
e[37m---    fused 0 elementwise_sub with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_sub with swish activatione[0m
e[37m---    fused 0 elementwise_sub with hardswish activatione[0m
e[37m---    fused 0 elementwise_sub with sqrt activatione[0m
e[37m---    fused 0 elementwise_sub with abs activatione[0m
e[37m---    fused 0 elementwise_sub with clip activatione[0m
e[37m---    fused 0 elementwise_sub with gelu activatione[0m
e[37m---    fused 0 elementwise_sub with relu6 activatione[0m
e[37m---    fused 0 elementwise_sub with sigmoid activatione[0m
e[37m---    fused 0 elementwise_mul with relu activatione[0m
e[37m---    fused 0 elementwise_mul with tanh activatione[0m
e[37m---    fused 0 elementwise_mul with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_mul with swish activatione[0m
e[37m---    fused 0 elementwise_mul with hardswish activatione[0m
e[37m---    fused 0 elementwise_mul with sqrt activatione[0m
e[37m---    fused 0 elementwise_mul with abs activatione[0m
e[37m---    fused 0 elementwise_mul with clip activatione[0m
e[37m---    fused 0 elementwise_mul with gelu activatione[0m
e[37m---    fused 0 elementwise_mul with relu6 activatione[0m
e[37m---    fused 0 elementwise_mul with sigmoid activatione[0m
e[37m---    fused 0 elementwise_add with relu activatione[0m
e[37m---    fused 0 elementwise_add with tanh activatione[0m
e[37m---    fused 0 elementwise_add with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_add with swish activatione[0m
e[37m---    fused 0 elementwise_add with hardswish activatione[0m
e[37m---    fused 0 elementwise_add with sqrt activatione[0m
e[37m---    fused 0 elementwise_add with abs activatione[0m
e[37m---    fused 0 elementwise_add with clip activatione[0m
e[37m---    fused 0 elementwise_add with gelu activatione[0m
e[37m---    fused 0 elementwise_add with relu6 activatione[0m
e[37m---    fused 0 elementwise_add with sigmoid activatione[0m
e[37m---    fused 0 elementwise_sub with relu activatione[0m
e[37m---    fused 0 elementwise_sub with tanh activatione[0m
e[37m---    fused 0 elementwise_sub with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_sub with swish activatione[0m
e[37m---    fused 0 elementwise_sub with hardswish activatione[0m
e[37m---    fused 0 elementwise_sub with sqrt activatione[0m
e[37m---    fused 0 elementwise_sub with abs activatione[0m
e[37m---    fused 0 elementwise_sub with clip activatione[0m
e[37m---    fused 0 elementwise_sub with gelu activatione[0m
e[37m---    fused 0 elementwise_sub with relu6 activatione[0m
e[37m---    fused 0 elementwise_sub with sigmoid activatione[0m
e[37m---    fused 0 elementwise_mul with relu activatione[0m
e[37m---    fused 0 elementwise_mul with tanh activatione[0m
e[37m---    fused 0 elementwise_mul with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_mul with swish activatione[0m
e[37m---    fused 0 elementwise_mul with hardswish activatione[0m
e[37m---    fused 0 elementwise_mul with sqrt activatione[0m
e[37m---    fused 0 elementwise_mul with abs activatione[0m
e[37m---    fused 0 elementwise_mul with clip activatione[0m
e[37m---    fused 0 elementwise_mul with gelu activatione[0m
e[37m---    fused 0 elementwise_mul with relu6 activatione[0m
e[37m---    fused 0 elementwise_mul with sigmoid activatione[0m
Active code page: 65001

OCR init completed.

初始化OCR成功，进程号为12148

Originally posted by @andongya95 in #9 (comment)

长图识别效果差

图片是长截图，直接显示了无文字
设置缩放的时候如果图片两条边长差距过大，希望可以考虑一下短边

是否可以支持内存图片的识别？

是否可以支持屏幕区域内直接截图图片进行OCR识别？
另外，是否可以与您取得联系？我的Email：[email protected]，期待你的来信。

建议高DPI支持

2K屏下显示模糊不清。

截图识别的快捷键会经常失效

截图识别的快捷键会经常失效，重新录制的热键会好用，但是等一会再用就又会失效，并且会出现设置alt+S 被识别成Alt+Win+s，然后需要重新启动软件才能恢复。

添加额外语言报错 11.1

软件版本：1.3.1 alpha1

额外添加英文，在使用的过程中会报错。

文件一：
PaddleOCR_json_config_en.txt

文件二：
en_dict.txt
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppocr/utils/dict/en_dict.txt

文件三：

文件四：

切换为其他语言后，还是可以正常使用。

请帮忙看看是哪里的故障呢？切换为英文就报错。

【解决快捷键问题】v1.3.1 测试 & 反馈

update：v1.3.1 正式版已发布。

旧版本Umi-OCR的快捷键模块依赖于boppreh/keyboard库，存在失效、录制不正确等问题。

v1.3.1 alpha 测试版本基于 moses-palmer/pynput 的基础接口构建了一套全新的快捷键事件框架，理论上能避免 keyboard 和 pynput 库固有的一些缺点。

在v1.3.0及以前版本遇到快捷键问题的朋友可以来尝试一下测试版。无论遇到了问题，还是运行良好，都希望您向我反馈，在本issue下留言即可。谢~

测试版发布地址：
https://github.com/hiroi-sora/Umi-OCR/releases/tag/v1.3.1-alpha

好像没有开机启动项设置，虽然可以自己系统里配置，但是稍显麻烦

好像没有开机启动项设置，虽然可以自己系统里配置，但是稍显麻烦。
希望后续增加~~~

1.3.1新版本"窗口弹出：不要弹出 "功能取消了？

窗口弹出：不要弹出找不到该设置项目了，1.3.0可以设置的，能否后续加上，非常需要该功能。

如何打包

十分感谢你提供的程序，我想要修改一些操作，但是-D打包后出现控制台，而且包很大，请问你是怎么用pyinstaller -F -w -i icon/icon.ico -n "Umi-OCR 批量图片转文字" main.py来打包的呢，这个应该只会把一个文件打包，如果修改spec导入其它文件后-F会出现文字识别卡死的情况

PaddleOCR json.exe-应用程序错误，识别失败（win10 x64）

运行程序后，弹窗显示：

PaddleOCR json.exe应用程序无法正常启动（0xc0000142）。清单击确定"关闭应用程序。

输出面板显示：

识别失败，错误码：300
错误信息：向识别器进程写入图片地址失败，疑似该进程已崩溃。[Errno 22] Invalid argument

系统：Windows 10 专业版 64 位操作系统
版本号：21H2

提示无法启动引擎 winError2 系统找不到指定文件

点开始任务按钮提示

竖排日文支持

样例：

全屏长图怎么处理？

全屏长图怎么办？这放进来，分辨率直接没法识别

功能建议：开机托盘启动不显窗口；内容输出清除之前内容；在高分辨率下字体很模糊。

1。开机启动可设成只是托盘启动，不显窗口吗。
2。可设置内容输出，自动清除之前的内容吗，这样就不需要使用“快捷识图+时间来分割了”。或加个选项实现此功能。
3。在高分辨率下，明显字体模糊。如图。

总体很实用很快很智能，以上仅是建议。

必须来夸一下

这可真是个好用的程序，作者整体叙事和解决上一个issues的贴心程度属实i了。工具做的功能十分齐全，ReadMe写的也很清楚。

功能建议：截图识别后直接在软件窗口上将所有文字合并为一段

大佬好，我用ocr主要是在码字的时候临时识别不能复制的文字（一般是一小段，长的用abbyy处理），截图识别后马上复制粘贴到word里面继续码字。

目前软件貌似只能将识别结果输出为txt等文件的时候才能实现合并等操作，但是码字的时候如果能直接在软件窗口里面把识别结果复制出来使用，会方便很多。

所以，大佬能考虑加入截图识别后直接在软件窗口上选择合并文字等操作吗😁

orc里面没有output_separate_txt文件

英文内容识别中，空格的识别率较低

操作系统：Microsoft Windows 11 操作系统名称：
10.0.22000 缺Build 22000
操作系统制造版本：微软公司
操作系统配置：独立工作站专业版操作系统制造商
类型：多处理器自由
系统制造商：AZW
系统型号：GTR
系统类型：x64-based PC
处理器：AMD64 Family 25 Model 80 Stepping 0 AuthenticAMD ~3301 Mhz

Umi-OCR版本：1.3