使用Python Tkinter库编写一个图片文字提取工具,这是图片文字提取工具外观界面:
Python图片文字提取工具外观
功能简介
图片文字提取是一个比较实用的功能,很多场合都会用到,如果不想一个个文字用手敲,最好找一个图片文字识别工具,来提升自己的工作效率。我使用Tkinter制作一个图片文字提取实用小工具,接下来向大家介绍一番!
基本功能:
图片载入矩形工具,用来框选识别对文字内容选框移动实时移动选框擦除图片文字提取,以纯文字输出基本设定功能
外观说明
简单说明:
开启按钮:载入图片矩形工具:框选图片文字识别区橡皮擦:擦除框选区域设定按钮:设定应用 KEY文字框:图片识别出来的文字,在文字框输出,文字可复制贴上
图片载入
有两种载入方式:双击显示区,载入图片点选工具选单中open,载入图片图片载入
框选文字提取区域
从指定图片区域提取文字内容如何调整选框:
如果对选中区域不满意,可以选择橡皮擦工具,擦除选框,重新框选在选框内,按住鼠标中间,可对选框进行实时移动
图片文字提取
从一般性图片提取文字:从照片图片提取文字内容:
该图片内容来自《三体》一段人类振奋士气一段话!
对选中不完整字型内容进行有效识别:
设定应用KEY
图片文字识别采用的是百度文字识别界面,使用百度文字识别界面功能需要先设定应用KEY。点选设定按钮,分别新增以下内容:
涉及Python知识点
编写图片文字提取工具涉及Python知识点总结如下:tkinter元件:工具选单档案对话方块、自定义对话方块Text输入框滚动条元件按钮、标签Frame、LabelFrame等Canvas元件:绘制矩形新增图片影象操作事件系结鼠标中间事件双击事件鼠标左键按住拖动事件鼠标释放事件Pillow影象处理库:区域截图影象文字识别技术,采用百度AI——文字识别界面
文字识别
关于文字识别这块再多说一下:采用Tesseract库 + pytesseract模组程式码第一版就图片文字识别功能采用 Tesseract库 + pytesseract模组 方式,通过Tesseract库对影象文字识别,使用Python的pytesseract模组呼叫Tesseract库。
但是有什么问题呢?
Tesseract库对影象文字辨识度不是特别好,很容易出错,离不开人工校对,这就增加了新的工作任务!
Tesseract是开源的OCR库,OCR(全称Optical Character Recognition)即光学文字识别
需要不断训练,才能提升Tesseract文字识别度
百度文字识别程式码第二版采用百度文字识别,也就是当前演示使用的版本。
百度文字识别,功能确实很强大,辨识度高,完全满足日常需要
百度文字识别界面按呼叫次数收费
不超过500次/日,则免费,对于个人使用来说,足够了
提示:使用百度文字识别界面需要联网,也就是说目前图片文字提取工具需要在联网的情况下才能正常使用
最后
想要获得Python源代码,快来私信我吧~接下来会有更加精彩的内容,不想错过的话,可以关注我,第一时间获取更新!
最后,投币收藏转发来一波,我们下期不见不散~