paddle ocr v4 微调训练文字识别模型实践

ops/2024/11/15 6:07:30/

识别步骤参考:https://github.com/PaddlePaddle/PaddleOCR/blob/main/doc/doc_ch/recognition.md

微调步骤参考:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7.1/doc/doc_ch/finetune.md

训练必要性

在这里插入图片描述
在这里插入图片描述

原始模型标点符号和括号容易识别不到

数据准备

通用数据 用于训练以文本文件存储的数据集(SimpleDataSet);

一张图片 一行文本
格式类似:
在这里插入图片描述
在这里插入图片描述

注意:图像文件名写xxx.jpg即可,文件夹名可以在配置文件中指定

数据源:垂直领域的pdf,经过剪裁生成了10万张图片(文本内容没有去重,为了保证一些词出现的频率不变)

开始训练

训练v4的模型,所以选择配置文件:ch_PP-OCRv4_rec.yml ,需要做如下更改
更改学习率为[1e-4, 2e-5]左右,
更改图片文件夹路径
更改batch_size大小(训练报错时,适当调节大小,)

下载pretrain model,使用v4预训练模型
https://paddleocr.bj.bcebos.com/PP-OCRv4/chinese/ch_PP-OCRv4_rec_train.tar

注意:v4预训练模型没有best,只有student

正常启动训练

python3 tools/train.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec.yml -o Global.pretrained_model=./pretrain_models/ch_PP-OCRv4_rec_train/student Global.save_model_dir=./output/rec_ppocr_v4

注意使用ch_PP-OCRv4_rec_distill.yml配置文件训练,报错KeyError: ‘NRTRLabelDecode’,官方暂时没有解决。

python3 tools/train.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec_distill.yml -o Global.pretrained_model=./pretrain_models/ch_PP-OCRv4_rec_train/student

导出模型

python3 tools/export_model.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec_jilin.yml  -o Global.pretrained_model=./output/rec_ppocr_v4/best_accuracy  Global.save_inference_dir=./inference/PP-OCRv4_rec_jilin/
python3 tools/infer/predict_rec.py --rec_model_dir="./inference/PP-OCRv4_rec/"  --image_dir="./train_data/rec/jilin_001_0_27_5.jpg"

推理

python3 tools/infer_rec.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec.yml -o Global.pretrained_model=./output/rec_ppocr_v4/best_accuracy Global.infer_img=./train_data/rec/jilin_001_0_27_5.jpg

实践:
参考:https://blog.csdn.net/qq_52852432/article/details/131817619
在这里插入图片描述
一共训练了20轮,第五轮训练测试集达到最大精度,85%,之后精度逐渐下降

在这里插入图片描述

预测

图片:

在这里插入图片描述
在这里插入图片描述

训练的模型:

(‘2218白城师范学院(吉林省白城市,10206)’, 0.9582517743110657)
(‘2225吉林警察学院(长春市,11441)’, 0.9862592816352844)
原始v4模型:

(2218白城师范学院(吉林省白城市,10206)', 0.9726919531822205)
(‘2225吉林警察学院(长春市,11441)’, 0.9829413294792175)

总结

可以看到,训练后模型识别括号基本统一成英文了。其实光是识别,起始v4效果已经很好了,原来检测的效果不太行,会拉低识别正确率

改进:微调文字检测模型,待完成后补充

其他需要注意的

实践时,使用了预训练模型,但一开始模型准确率acc一直为0,因为数据准备错误了,图片包含了多行文字,后来修正了图片,acc飞速提高。

其他版本

由于我数据集存在很多文本,我想更改max_length,从25改到50,并且image.shape的宽从320改成1280

结果时是拟合

训练模型可能有的疑问

文本识别训练时宽高比大于 10 或者文本长度大于 25 的图像会直接丢弃吗?会
参考:https://github.com/PaddlePaddle/PaddleOCR/issues/5017

如果训练数据较少的话,配置越高越容易过拟合。

英文长度是按照字母计算的,需要将空格计算在内。
我印象中,定义的max_text_length需要比实际的长度至少多两位数。
比如要想识别身份证号,实际中身份证号是18位,那在config文件中定义的max_text_length至少要为20,否则会报错。

尽量让字典里的每个字的出现频率在200以上(最好均匀),可以用text_renderer-master合成试试效果


http://www.ppmy.cn/ops/15387.html

相关文章

vue快速入门(四十四)自定义组件

注释很详细,直接上代码 上一篇 新增内容 全局注册自定义组件并应用局部注册自定义组件并应用 此篇使用了axios模块没有安装导入的先看这一篇 axios模块下载与导入 源码 main.js import Vue from vue import App from ./App.vue//全局引入axios // 引入axios impor…

【论文解读系列】从RNN/CNN到大模型全解析

论文:A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond 地址:GitHub:https://github.com/QiushiSun/NCISurvey 文章目录 一、代码模型的发展 1.神经语言建模(Neural Language Modeling)时代 …

Linux下的进程管理:创建、终止、切换与等待

文章目录 一、引言二、进程创建1、进程创建的概念与场景2、进程创建的方式a、fork() 系统调用b、fork() 后的执行流程 3、进程创建的过程a、进程创建过程b、子进程创建过程 4、父子进程关系与属性继承 三、进程终止1、进程终止的原因2、进程的错误码和退出码a、错误码b、退出码…

python中的进程间通信

进程间数据是否共享 在Python中,进程之间默认是不共享内存的。每个进程都有自己独立的内存空间,这意味着在一个进程中对数据的修改不会影响到另一个进程中的同名数据。然而,Python提供了几种方式来实现进程间的数据共享: 使用 mu…

【前端面试常问】MVC与MVVM

🔥【前端面试常问】MVC与MVVM💥:详尽解读与实战指南 前端开发世界中,架构设计犹如高楼之基,决定着代码的组织层次、模块间交互方式以及项目长远的可维护性和扩展性。本文将全方位剖析两种主流前端架构模式——MVC&…

Python自动化系列5

import selenium #工具里的所有的内容都导入 from selenium import webdriver #从selenium 工.具里导入webdriver库 import time #导入time这个模块— Python自带的 #选择chrome这个浏览器,初始化driver可以浏览器进行沟通建立会话 session driver webdriver.Ch…

aysnc-await的用法

aysnc-await是promise的一种特殊语法,它可以更简洁的得到promise aysnc function aysnc 放在函数前定义函数,它规定了这个函数的返回值一定为promise, // 通过new新建一个promise(旧) // let p new Promise(function(resolve,reject){ //…

python基础--文件操作

目标 文件操作的作用文件的基本操作 打开读写关闭 文件备份文件和文件夹的操作 一. 文件操作的作用 思考:什么是文件? 思考:文件操作包含什么? 答:打开、关闭、读、写、复制… 思考:文件操作的的作用…