【MiniCPM-V】win10本地部署OCR等性能测试

news/2024/10/16 2:22:25/
aidu_pl">

性能尝试

本地配置如下

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 546.80                 Driver Version: 546.80       CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                     TCC/WDDM  | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3080 ...  WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   52C    P0              43W / 140W |      0MiB / 16384MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------++---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

1. Response time latency(普遍推理时间在1-2min内不等)

2. OCR理解能力,找图片试一下,多模态图片

3. 作为llm的语义理解能力


案例一:柱状图

在这里插入图片描述

案例二:中文发票 -> json格式

请添加图片描述

{
“发票类型”: “上海市服务业、娱、贸文化体育统一发票”,
“发票号码”: “23100127006108438658”,
“开票日期”: “2012/10/11”,
“供应商信息”: {
“名称”: “上海师范学校专科附属小学”,
“税务登记号”: “3101011325090797”
},
“购买方信息”: {
“名称”: “上海市保安服务总公司黄浦区”,
“税务登记号”: “3101011325090798”
},
“项目信息”: {
“项目名称”: “项目服务”,
“项目单价”: “700.00”,
“数量”: “6”,
“金额”: “4200.00”,
“税率”: “6%”,
“税额”: “126.00”,
“合计”: “4200.00”
},
“其他信息”: {
“税款登记号”: “3101011325090799”,
“收款人姓名”: “余周”,
“付款人姓名”: “李明”
}
}

案例三:英文机票 -> json格式

在这里插入图片描述

{
“title”: “E-Boarding Pass”,
“notice”: “You may proceed directly to the boarding gate using this e-boarding pass. You can download and share this e-boarding pass with other guests in your booking.”,
airlines”: [
{
“logo”: “AirAsia”,(难)
“destination”: “Macao International Airport”,(错)(缺少出发地)
“flight_no”: “FD 776”,
“date”: “14 Mar 2024”,
“time”: “10:10”
}
],
“booking_details”: {
“flight_no”: “FD 776”,
“departure_date”: “14 Mar 2024”,
“departure_time”: “10:10”,
“seat”: “19E”,
“sequence”: “8”
},
“qr_code”: “包含在条形码和二维码内的信息”,
“status”: “ASA”
}

案例四:ppt -> 根据这个图片写一段演讲稿

请添加图片描述

尊敬的各位来宾,今天我非常荣幸能够在这里与大家分享我们的内容赋能解决方案。随着信息化时代的到来,我们面临着如何充分利用数据资源来推动业务发展的挑战。在这个过程中,基于非结构化数据的分析和管理显得尤为重要。
我们深入研究了现有的企业业务系统,并针对其中的关键业务系统进行了优化。OA、ERP等系统通过内容采集的方式,将文档的文本和内容转换成可供分析的形式,从而实现对业务数据的精准理解和决策支持。
此外,我们还专注于内容处理服务的流程自动化和业务数据贯通,为企业提供了更高效的工作流程和数据共享能力。而在内容分析数据这一核心环节,我们采用了先进的数据分析技术,挖掘出隐藏在海量数据背后的宝贵信息。
为了更好地管理和运营这些内容,我们建立了内容管理体系架构,包括图谱标签、内容总线和内容数据湖等模块。这不仅有助于组织和检索内容,还能提高内容的价值和利用率。
最后,我们还提供了电子档案管理、合同管理、SAP智能内容管理等功能,以满足不同行业和业务需求的个性化服务。
总结来说,我们的内容赋能解决方案旨在帮助企业将非结构化数据转化为有价值的业务资产,提升业务效率和竞争力。感谢大家的聆听。

案例五:食物链描述(有几个动物错误,但人也难以辨认,基本正确)

请添加图片描述

<User>: 用语言描述这个食物链
<Assistant>: 这个食物链展示了一个典型的草原生态系统,包括草、树木、各种草食动物和捕食者。草是食物链的基础,为像长颈鹿、斑马、羚羊等动物提供营养。这些动物被描绘为不同的种类,它们通过吃草或其他植物来维持生命。食草动物之间存在竞争关系,但也可以共存,因为每个物种有自己偏好的植被类型。
<User>: 描述每一个动物之间的关系
<Assistant>: 根据食物链的图表,狮子是食肉动物,猎杀斑马和长颈鹿以获取食物。豹子也捕食猎物,包括猎鸟和羚羊。野猪可能会吃植物或其他小动物,而狗可能会捕食小型哺乳动物或食用人类提供的食物。鸟类,如鹰,可能捕食小型哺乳动物或其他鸟类。狐狸可能捕食小型哺乳动物或觅食垃圾。鼠兔可能被猫科动物如豹子和狗捕食,而大象是草食性动物,主要以树叶为食。草原和森林环境中存在的树木为食草动物提供了必要的植被。总体而言,这个图表展示了各种生物之间的相互依存关系,其中每个生物都在其生态系统内扮演着特定的角色。

案例六:复杂结构描述

在这里插入图片描述

这张图展示了非结构化数据AI洞察发展的路径,按照场景和内容级别的复杂性进行分类。图表的左侧是通用图谱、行业图谱和行业词库等类型的非结构化数据,而右侧则展示了从基础的基于元数据的核心资产管理到更高级别的智能标签、智能定密、文字OCR、物体识别、人像识别等技术应用的层次。图表的上部包含了自主探索式搜索、场景下的知识推荐、基于元数据的核心资产管理以及内容级别结构化分析等功能。图表的下部聚焦在具体的应用场景,如AI引擎、主题趋势预测、安全洞察等。整体上,这个图表提供了一种视觉化的方式来理解和规划在不同领域中如何有效地利用和管理非结构化数据。

扇形结构应该是识别不出来,是我要求太高了

案例七:复杂表格请添加图片描述

尝试搜索功能,所在行一般是对的,列感觉有点瞎蒙
尝试转markdown

Description2023 m$2022 $m2021 $m2020 $m2019 $m
Net interest income35,79630,37726,48927,57830,462
Net fee income11,84511,77013,09711,87412,023
Net income from financial instruments held for trading or managed on a fair value basis16,66110,2787,7449,58210,231
Net income/(expense) from assets and liabilities of insurance businesses, including related derivatives, measured at fair value through profit or loss7,887(4,053)3,0812,4783,479
Net insurance premium income(7,809)10,87010,09310,636-
Insurance finance (expense)/income(1,078)13,799---
Insurance service result1,581809---
Gain on acquisition(1,141)(266)1,6871,8664,194
Total operating income66,05850,62063,94064,07171,024
Net income before operating expenses and other charges(14,388)----
Net income before income taxes66,05850,62049,55250,42956,098
Net income before credit impairment charges(3,447)(3,584)(928)(8,176)(7,756)
Net operating income62,61151,48040,51234,64133,544
Total operating expenses excluding impairment of goodwill and other intangible assets(32,355)(32,887)(33,044)(34,955)(37,394)
Impairment of goodwill and other intangible assets285(147)(733)(1,388)(7,394)
Operating profit30,54115,4407,1807,16015,993
Share of profit in associates and joint ventures2,8072,7233,0462,5971,354
Impairment of interest in associate(3,000)----
Profit before tax30,34817,90818,9068,77713,347
Tax expense(5,789)(14,693)(2,678)(4,639)(8,709)
Profit for the year24,55914,69913,0966,7088,099
Attributable to:
- Ordinary

在这里插入图片描述
结果一般,有很多错的,而且没有识别完就结束了


http://www.ppmy.cn/news/1462521.html

相关文章

工具-博客搭建

以下相关讲解均基于hexo github pages方案&#xff0c;请注意&#xff01;&#xff01;&#xff01;博客搭建方案选择 参考文章1 搭建教程 参考文章1 hexo github pages搭建过程中遇到的问题 删除categories、tags 1、删除含有需要删除categories、tags的文章 2、hexo …

大厂程序员离职,开发一个盲盒小程序2万,一周开发完!

大家好&#xff0c;我是程序员小孟&#xff01; 前面接了一个盲盒的小程序&#xff0c;主要的还是商城&#xff0c;盲盒的话只是其中的有一个活动。 现在的年轻人是真的会玩&#xff0c;越来越新的东西出来&#xff0c;越来越好玩的东西流行。 就像最近很火的地摊盲盒。 讲…

OpenCV学习(3.2) 图像上的算术运算

1.目标 学习图像的几种算术运算&#xff0c;例如加法&#xff0c;减法&#xff0c;按位运算等。 2.图像加法 您可以通过OpenCV函数cv.add()或仅通过numpy操作res img1 img2添加两个图像。两个图像应具有相同的深度和类型&#xff0c;或者第二个图像可以只是一个标量值。 注…

建投数据收获客户感谢信

建投数据自2021年提出“以数据为核心的智能科技服务商”&#xff0c;并一直在为“成为国内领先的数字化转型合作伙伴”而努力&#xff0c;在赋能行业客户创造更大价值的同时&#xff0c;也陆续收到来自客户的肯定。 建投数据始终践行“成就客户&#xff0c;创新为要&#xff0…

正点原子LWIP学习笔记(二)MAC简介

MAC简介 一、MAC简介&#xff08;了解&#xff09;二级目录三级目录 二、ST的ETH框架&#xff08;了解&#xff09;三、SMI站管理接口&#xff08;熟悉&#xff09;四、介质接口MII、RMII&#xff08;熟悉&#xff09; 一、MAC简介&#xff08;了解&#xff09; STM32 的 MAC …

微信小程序中轮播的使用和绑定事件

轮播组件 轮播组件可以让内容在水平方向上进行轮播展示&#xff0c;非常适合于展示图片、广告等内容。在微信小程序中&#xff0c;轮播组件是通过 和 组合来实现的。 组件 组件是轮播容器&#xff0c;用于包裹多个轮播项。 属性&#xff1a; indicator-dots&#xff1a;是否显…

STM32-串口通信波特率计算以及寄存器的配置详解

您好&#xff0c;我们一些喜欢嵌入式的朋友一起建立的一个技术交流平台&#xff0c;本着大家一起互相学习的心态而建立&#xff0c;不太成熟&#xff0c;希望志同道合的朋友一起来&#xff0c;抱歉打扰您了QQ群372991598 串口通信基本原理 处理器与外部设备通信的两种方式 并行…

牛客周赛 Round 42

小红叕战小紫 #include "bits/stdc.h" using namespace std;#define int long long #define endl \n #define IOS ios::sync_with_stdio(0),cin.tie(0); #define all(x) x.begin(),x.end() #define pi pair<int,int> #define vi vector<int> #define …