人工智能方向很多,其中OCR作为图片文字识别,在很多方面得到运用,例如:网络安全公司通过爬虫网络图片,对图片上的文字识别分析,从而判定其是否含有特定色彩资讯等。对图片上的文字有效识别,方便了文字的携带和再次重复使用,只需对需要识别的图片拍摄扫描就可识别其文字资讯,大大简化人的工作量。
OCR识别的第一步便是资料准备,资料作为训练好坏的关键,往往具有一定重要性,巨大的资料量也是模型识别能力的重要保障。而OCR资料准备不像图片识别目标检测那样需要人工标注,因其资料需求简单,因此,算法开发者通常通过程式自动生成训练资料,本人之前做中文、英文、日语等多种语言OCR识别过程都是通过程式模拟。而丰富多样的资料格式,有利于提高模型的泛化能力。今天给大家介绍一个GitHub开源的OCR字元识别利器。
GitHub地址:https://github.com/Belval/TextRecognitionDataGenerator
该专案下载后可以直接在本地执行,支援中文、英文资料模拟,使用者只需要按要求将字型和语料库放到指定目录即可。
通过如下命令即可模拟资料:
生成模拟资料入口
如下是模拟的英文OCR训练资料:
模拟的英文OCR训练资料
当然,在真实场景中,如上资料远远不能满足需求,该专案提供了配置引数,通过 - k命令可以生成倾斜或呈对角线排列的资料,如下:
对角线排列的OCR训练资料
这种对角线排列的资料在训练过程很有意义,对提高模型的泛化和抗噪能力至关重要。
不仅如此,该专案提供了波浪形状的模拟资料,通过- d引数即可生成。
呈波浪形的OCR训练资料
这种资料加入OCR训练过程,通过实验,对模型能力提升特别大。
不仅如此,专案提供了-d引数的以图片作为背景的OCR资料。
以图片作为背景的OCR模拟资料
这种资料只需要开发者将搜集到的背景图片放到指定目录,程式在模拟过程会自动读取并模拟,本人在一步步除错其源代码的时候,对其做了很多修改。
该专案还支援手写字元识别的资料模拟,通过-hw引数控制。
手写OCR资料模拟
作者还提供了模拟速度结果:
模拟速度对比
可以看到,不同环境中模拟的图片速度不同,开发者只有指定引数即可。目前,该专案已经有673个star,fork286次,可以说得到了很多人的喜欢,如果你也从事或者准备从事人工智能中的OCR方向,不妨以此作为你的模拟资料利器,相信一定会给你带来意想不到的惊喜和模型效果。
喜欢的朋友可点选关注哦,有问题欢迎大家随时留言。