【iOS】——基于Vision Kit框架实现图片文字识别

news/2024/11/15 4:46:44/

文章目录

  • 前言
  • 一、文本识别的分类
  • 二、实现步骤
    • 1.导入Vision Kit框架
    • 2.创建请求处理器
    • 3.在请求处理器中设置文字识别功能
    • 4.将图片添加到请求处理器中
    • 5.发起文字识别请求
    • 6.处理识别结果
  • 三、运行结果测试
    • 1.纯英文环境
    • 2.中英文混合环境


前言

根据苹果的官方文档,Vision可以执行面部检测、文本检测、条形码识别、图像注册和一般功能跟踪。Vision还允许将自定义Core ML模型用于分类或对象检测等任务。下面只是对文本识别的一个学习。


一、文本识别的分类

Vision的文本识别分为两种方式。

第一种是快速路径(fast),它使用框架的字符检测功能来查找单个字符,然后使用小型机器学习模型来识别单个字符和单词,这种方法类似于传统的光学字符识别(OCR)。

第二种是准确路径(accurate),它使用神经网络查找字符串和行的文本,然后执行进一步分析以查找单个单词和句子。这种方法更符合人类阅读文本的方式。

这两种识别方式都在VNRecognizeTextRequest 类的 recognitionLevel 属性中,并且该属性为枚举类型:

VNRequestTextRecognitionLevelAccurate: 表示精确级别的文本识别。在这个级别下,识别结果的准确性较高,但可能会增加处理时间和资源消耗。
VNRequestTextRecognitionLevelFast: 表示快速级别的文本识别。在这个级别下,识别速度较快,但可能会牺牲一些准确性。

使用其中任意一个路径都可以选择应用基于自然语言处理(NLP)的语言校正阶段,以尽量减少误读的可能性。

流程图如下:

在这里插入图片描述

识别图像中的文本官方文档

二、实现步骤

实现文字识别总共分为六个步骤:

  • 第一步:导入Vision Kit框架
  • 第二步:创建请求处理器
  • 第三步:在请求处理器中设置文字识别功能
  • 第四步:将图片添加到请求处理器中
  • 第五步:发起文字识别请求
  • 第六步:处理识别结果

1.导入Vision Kit框架

1.打开需要导入的Xcode项目

2.在导航器面板中,选择您的项目文件

3.在项目设置中点击"General"选项卡,然后在"Frameworks, Libraries, and Embedded Content"(框架、库和嵌入内容)部分,点击"+"按钮。

在这里插入图片描述

4.在弹出窗口中,搜索并选择"Vision.framework"。

在这里插入图片描述

5.在项目文件中引入头文件

#import <Vision/Vision.h>
#import <VisionKit/VisionKit.h>

2.创建请求处理器

 // 创建一个请求处理器VNRecognizeTextRequest *request = [[VNRecognizeTextRequest alloc] initWithCompletionHandler:^(VNRequest * _Nonnull request, NSError * _Nullable error) {if (error) {NSLog(@"文字识别出错: %@", error);return;}}];

3.在请求处理器中设置文字识别功能

通过设置VNRecognizeTextRequest属性来设置文字识别功能

//设置参数
//搜索路径为准确路径request.recognitionLevel = VNRequestTextRecognitionLevelAccurate;//语言范围是英文或者简体中文request.recognitionLanguages = @[@"en-US", @"zh-Hans"];

使用 recognitionLanguages 属性来设置文本识别的语言范围。recognitionLanguages 是一个字符串数组,你可以将支持的语言标识符添加到数组中。

4.将图片添加到请求处理器中

创建了一个 VNImageRequestHandler 对象,并将需要识别的图像以 CGImage 的形式传入

 VNImageRequestHandler *handler = [[VNImageRequestHandler alloc] initWithCGImage:image.CGImage options:@{}];

5.发起文字识别请求

通过使用 VNImageRequestHandler 的 performRequests方法来实现

 // 发起文字识别请求NSError *error = nil;[handler performRequests:@[request] error:&error];if (error) {NSLog(@"文字识别请求出错: %@", error);}

6.处理识别结果

VNRecognizedTextObservation 类代表了 Vision 框架识别出的文本观察结果。使用 VNRecognizedTextObservation 对象的 topCandidates 方法返回一个数组,其中包含了识别结果的候选文本。

// 处理识别结果NSArray *results = request.results;for (VNRecognizedTextObservation *observation in results) {NSArray<VNRecognizedText *> *topCandidates = [observation topCandidates:1];if (topCandidates.count > 0) {VNRecognizedText *recognizedText = [topCandidates firstObject];NSString *text = recognizedText.string;NSLog(@"识别结果: %@", text);self.medicineLabel.text = text;} else {NSLog(@"没有找到候选文本");}}

三、运行结果测试

1.纯英文环境

1.准确路径下的运行结果
在这里插入图片描述

2.快速路径下的运行结果
在这里插入图片描述
可以看到在纯英文环境下,两种路径的识别准确率都是非常高的

2.中英文混合环境

1.准确路径下的运行结果
在这里插入图片描述
2.快速路径下的运行结果
在这里插入图片描述
在中英文混合环境下,虽然设置了识别范围是英文和简体中文但是准确路径只识别到了一个单词,快速路径虽然识别了一个字段但是准确率不是特别高


http://www.ppmy.cn/news/1328406.html

相关文章

【多线程】认识Thread类及其常用方法

&#x1f4c4;前言&#xff1a; 本文是对以往多线程学习中 Thread类 的介绍&#xff0c;以及对其中的部分细节问题进行总结。 文章目录 一. 线程的 创建和启动&#x1f346;1. 通过继承 Thread 类创建线程&#x1f345;2. 通过实现 Runnable 接口创建线程&#x1f966;3. 其他方…

pyDAL一个python的ORM(终) pyDAL的一些性能优化

一、大批量插入数据 对于 大量数据插入时&#xff0c;虽然pyDAL也手册中有个方法&#xff1a;bulk_insert()&#xff0c;但是手册也说了&#xff0c;虽然方法上是一次可以多条数据&#xff0c;如果后端数据库是关系型数据库&#xff0c;他转换为SQL时它是一条一条的插入的&…

DDD系列 - 第9讲 实体、值对象

目录 引言一、实体1.1 数据库实体1.2 数据库实体 vs. DDD实体1.3 DDD实体的本质及其识别规则1.4 代码中如何定义实体二 、值对象2.1 值对象 vs. 附属属性2.2 值对象 vs. 实体2.3 代码中如何定义值对象2.4 何时使用值对象引言 之前我在《DDD系列 - 第4讲 从架构师的角度看待DDD…

springboot配置项动态刷新

文章目录 一&#xff0c;序言二&#xff0c;准备工作1. pom.xml引入组件2. 配置文件示例 三&#xff0c;自定义配置项动态刷新编码实现1. 定义自定义配置项对象2. 添加注解实现启动时自动注入3. 实现yml文件监听以及文件变化处理 四&#xff0c;yaml文件转换为java对象1. 无法使…

C++设计模式(李建忠)笔记4(完结)

C设计模式&#xff08;李建忠&#xff09; 本文是学习笔记&#xff0c;如有侵权&#xff0c;请联系删除。 参考链接 Youtube: C设计模式 Gtihub源码与PPT&#xff1a;https://github.com/ZachL1/Bilibili-plus 豆瓣: 设计模式–可复用面向对象软件的基础 总结23种设计模式…

清华大学计算机学科推荐学术会议和期刊列表——网络与信息安全

A类会议 这里仅列出A类会议 会议简称会议全程网址IEEE S&PIEEE Symposium on Security and Privacyhttp://dblp.uni-trier.de/db/conf/sp/NDSSISOC Network and Distributed System Security Symposiumhttp://dblp.uni-trier.de/db/conf/ndss/USENIX SecurityUsenix Secu…

1d 卷积网络笔记

目录 这个是1d 卷积网络合集&#xff1a; resnet1d的 这个是1d 卷积网络合集&#xff1a; https://github.com/StChenHaoGitHub/1D-deeplearning-model-pytorch/blob/main/ResNet50.py resnet1d的 https://github.com/hsd1503/resnet1d

php基础学习之常量

php常量的基本概念 常量是在程序运行中的一种不可改变的量&#xff08;数据&#xff09;&#xff0c;常量一旦定义&#xff0c;通常不可改变&#xff08;用户级别&#xff09;。 php常量的定义形式 使用define函数&#xff1a;define("常量名字", 常量值);使用cons…