机器学习笔记 - 了解常见开源文本识别数据集以及了解如何创建用于文本识别的合成数据

news/2025/3/3 22:12:39/

一、部分开源数据集

以下是一些英文可用的开源文本识别数据集。

ICDAR 数据集:ICDAR 代表国际文档分析和识别会议。该活动每两年举行一次。他们带来了一系列塑造了研究社区的场景文本数据集。例如, ICDAR-2013和ICDAR-2015数据集。

MJSynth 数据集:该合成词数据集由牛津大学视觉几何组提供。该数据集由综合生成的 900 万张图像组成, 涵盖 9 万个英语单词,并包括我们工作中使用的训练、验证和测试分割。


http://www.ppmy.cn/news/1228524.html

相关文章

Linux socket编程(4):服务端fork之僵尸进程的处理

在上一节利用fork实现服务端与多个客户端建立连接中,我们使用fork函数来实现服务端既可以accept新的客户端连接请求,又可以接收已连接上的客户端发来的消息。但在Linux中,在子进程终止后,父进程需要处理该子进程的终止状&#xff…

计蒜客T1723 约瑟夫问题(C语言实现)

【题目描述】 传说约瑟夫当年活下来就是靠快速计算这个问题。n个人围成一圈,编号依次为1,2,3…n。从第一个人开始报数,数到m的人再出圈。以此类推,直到所有的人都出列。请输出依次出圈人的编号。 【输入格式】 两个整数n,m,均在[1…

三层交换机实现不同VLAN间通讯

默认时,同一个VLAN中的主机才能彼此通信,那么交换机上的VLAN用户之间如何通信? 要实现VLAN之间用户的通信,就必须借助路由器或三层交换机来完成。 下面以三层交换机为例子说明: 注意: 1.交换机与三层交换…

【开源】基于Vue.js的高校宿舍调配管理系统

项目编号: S 051 ,文末获取源码。 \color{red}{项目编号:S051,文末获取源码。} 项目编号:S051,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能需求2.1 学生端2.2 宿管2.3 老师端 三、系统…

二-内存模型及所有权和引用、借用

1. 内存模型1 内存模型,heap和stack的区别,GC方面和go的区别 基本同go一样,分为堆内存、栈内存。栈内存函数退出时会自动释放,大小有限,一般是比较“小”的变量存到栈上。 比较“大”的或者大小动态变化的会分配到堆上…

FPGA_IIC代码-正点原子 野火 小梅哥 特权同学对比写法(3)

FPGA_IIC代码-正点原子 野火 小梅哥 特权同学对比写法(3) 工程目的IIC时序图IIC 读写操作方法汇总正点原子IIC实验工程整体框图和模块功能简介,如表下图所示: IIC 驱动模块设计时钟规划状态跳转流程单次写操作的波形图如下图所示&…

C#反射机制

通过反射系统,在不使用new关键词,不知道对象类型的情况下,仅仅通过对象的名称创建一个一模一样的实例的过程 类的结构说明都会以System.Reflection.Type进行保存。 Type object Type.GetType(classiy); Activator.CreateInstance(objType); …

C++模拟实现——红黑树封装set和map

一、红黑树迭代器的实现 基本的框架和实现链表的迭代器思路是一样的,都是对指针进行封装处理,然后实现一些基本的运算符重载,最重要的是operator,需要不递归的实现走中序的规则,这里只实现那最核心的几个基本功能&…