APP下载

人工智能-OCR识别资料模拟利器介绍

消息来源:baojiabao.com 作者: 发布时间:2024-05-29

报价宝综合消息人工智能-OCR识别资料模拟利器介绍

人工智能方向很多,其中OCR作为图片文字识别,在很多方面得到运用,例如:网络安全公司通过爬虫网络图片,对图片上的文字识别分析,从而判定其是否含有特定色彩资讯等。对图片上的文字有效识别,方便了文字的携带和再次重复使用,只需对需要识别的图片拍摄扫描就可识别其文字资讯,大大简化人的工作量。

OCR识别的第一步便是资料准备,资料作为训练好坏的关键,往往具有一定重要性,巨大的资料量也是模型识别能力的重要保障。而OCR资料准备不像图片识别目标检测那样需要人工标注,因其资料需求简单,因此,算法开发者通常通过程式自动生成训练资料,本人之前做中文、英文、日语等多种语言OCR识别过程都是通过程式模拟。而丰富多样的资料格式,有利于提高模型的泛化能力。今天给大家介绍一个GitHub开源的OCR字元识别利器。

GitHub地址:https://github.com/Belval/TextRecognitionDataGenerator

该专案下载后可以直接在本地执行,支援中文、英文资料模拟,使用者只需要按要求将字型和语料库放到指定目录即可。

通过如下命令即可模拟资料:

生成模拟资料入口

如下是模拟的英文OCR训练资料:

模拟的英文OCR训练资料

当然,在真实场景中,如上资料远远不能满足需求,该专案提供了配置引数,通过 - k命令可以生成倾斜或呈对角线排列的资料,如下:

对角线排列的OCR训练资料

这种对角线排列的资料在训练过程很有意义,对提高模型的泛化和抗噪能力至关重要。

不仅如此,该专案提供了波浪形状的模拟资料,通过- d引数即可生成。

呈波浪形的OCR训练资料

这种资料加入OCR训练过程,通过实验,对模型能力提升特别大。

不仅如此,专案提供了-d引数的以图片作为背景的OCR资料。

以图片作为背景的OCR模拟资料

这种资料只需要开发者将搜集到的背景图片放到指定目录,程式在模拟过程会自动读取并模拟,本人在一步步除错其源代码的时候,对其做了很多修改。

该专案还支援手写字元识别的资料模拟,通过-hw引数控制。

手写OCR资料模拟

作者还提供了模拟速度结果:

模拟速度对比

可以看到,不同环境中模拟的图片速度不同,开发者只有指定引数即可。目前,该专案已经有673个star,fork286次,可以说得到了很多人的喜欢,如果你也从事或者准备从事人工智能中的OCR方向,不妨以此作为你的模拟资料利器,相信一定会给你带来意想不到的惊喜和模型效果。

喜欢的朋友可点选关注哦,有问题欢迎大家随时留言。

2019-10-23 08:56:00

相关文章