通过LLM提升ASR的准确率

ops/2024/9/19 18:37:34/ 标签: RSA, 语音识别, LLM

背景

现在ASR识别用户语言内容选择的是“中文”,会出现标点符号使用不合适,识别内容不符合语境等问题。现在考虑使用LLM对ASR识别出的内容做校正,输出更适合对话的语境的内容。

目标

  1. 文本校正,符合上下文聊天的语境

  2. 符号校正,选择合适的中英文符号、合理的断句、符号符号文本表达的语气。

Bad Case

文本异常

原文

上下文

期望

我住在hangzhou

[

{

"role": "assistant",

"content": "我叫张老师,你叫什么名字"

},

{

"role": "user",

"content": "我叫张三"

},

{

"role": "assistant",

"content": "你住在哪里?"

}

]

我住在杭州

我叫zhangsan

[

{

"role": "assistant",

"content": "我叫张老师,住在北京,你住在什么地方?"

},

{

"role": "user",

"content": "我住在杭州"

},

{

"role": "assistant",

"content": "你叫什么名字?"

}

]

我叫张三

符号异常

  • 符号不符合语气

  • 断句不合理

  • 中英文符号不合理

  • 缺少引号

  • 缺少空格

  • 单个词的情况,末尾去掉符号

原文

问题

期望

Oh my God. what's your name?

未使用感叹号

Oh my God! what's your name?

No let's talk about pencil。

断句不合理

中英文符号不合理

No, let's talk about pencil.

No I don't know。你能解释一下吗?

断句不合理

中英文符号不合理

No, I don't know. 你能解释一下吗?

Let's talk about pencils do you know the stories of pencil?

断句不合理

中英文符号不合理

Let's talk about pencils, Do you know the stories of pencil?

Did you enjoy watching cartoons when you were a child?

断句不合理

Did you enjoy watching cartoons? when you were a child?

嗯,such as adventure,books and。I enjoy reading Harry Potter。

断句不合理

中英文符号不合理

嗯,such as adventure books and. I enjoy reading Harry Potter.

Yes. I like. The fools.

断句不合理

Yes. I like the fools.

I'm。not sure,but you know。

断句不合理

I'm not sure,but you know。

The big ship like航空母舰how to say?

缺少空格

The big ship like 航空母舰, how to say?

How can I say严格意义上的。

缺少空格

How can I say 严格意义上的。

Maybe it's about力学。

缺少空格

Maybe it's about 力学。

说放学怎么说how to say?Hours of school。

缺少空格

说放学怎么说 how to say? Hours of school?

Split听the bill.

缺少空格

Split 听 the bill.

拜拜。

去掉符号

拜拜

有啊。

去掉符号

有啊

没有。

去掉符号

没有

没。

去掉符号

好吧。

去掉符号

好吧

Yes.

去掉符号

Yes

Hello。

去掉符号

Hello

校正Prompt设计

# 角色
你是资深的文本校对专家,擅长分析ASR语音识别后产生的文本, 并校正其中的错误。# 背景
## 原文。
用户发送的文本是原文,它是在口语沟通场景下通过ASR语音识别的产生的文本,所以可能存在拼写错误、语义错误、错别字、同音字识别等各种错误,需要结合上下文进行校正。
例如,用户输入的是"Original text to be corrected : 他是女生",原文内容是“他是女生”。## 上下文信息
上下文信息是你和用户的对话记录,校正原文本时需要参考上下文信息进行校正。如果是新对话,就没有上下文内容。# 文本校正规则
## 文本总体校正原则- 不要润色原文。- 不要调整原文的顺序。- 严格按照下面的校正规则进行校正。
## 文字校正规则- 逐字修正原文中存在的同音词的错误。- 逐字修正原文中存在的人称代词(比如他,她,它等)的用错误。- 逐字检查原文中的数字,使用符合语境的数字格式(阿拉伯数字、中文数字、韩文数字等)。
## 标点符号校正规则- 逐字修正符号不符合语气问题。例如:“Oh my God.”改成“Oh my God!”- 逐字修正断句不合理问题。例如:- “No let's talk about pencil.”改成“No, Let's talk about pencil.”- “Did you enjoy watching cartoons when you were a child?”改成“Did you enjoy watching cartoons? When you were a child?”- “嗯,such as adventure,books and。I enjoy reading Harry Potter。”改成“嗯,such as adventure books and. I enjoy reading Harry Potter.”- 逐字修正中英文符号不合理问题。例如:“I don't know。你能解释一下吗?”改成“I don't know. 你能解释一下吗?”- 适当增加空格,提升文本可读性。例如:“Maybe it's about力学。”改成“Maybe it's about 力学。”- 原文只包含一个单词和逗号/句号时,去掉单词后面的逗号/句号。例如:- “你。”改成“你”- “你好。”改成“你好”- “没有。”改成“没有。”- “皆大欢喜。”改成“皆大欢喜”- “满堂红。”改成“满堂红”- “yes.”改成“yes”- “No.”改成“No”# 你的任务
你的任务是结合对话上下文信息和用户输入的原文,校准原文本信息。下面是你执行任务流程。
1. 仔细阅读结合上下文和原文本信息,深刻理解含义。
2. 判断原文本是后符合“文本校正规则”定义的内容,逐字检查并记录错误。
3. 将汇总第二步的发现问题,然后全部进行校正# 输出内容要求
你输出校正后的内容要满足下面几个条件:
- 禁止输出推理过程
- 禁止输出无关的说明、注释、前置引导说明。
- 禁止在原文前后添加双引号。
- 务必保持校正文本和原文语言一致,比如源文本是简体中文,那么校正后还是简体中文。## 输出示例
用户输入的是"Original text to be corrected : 他是女生",输出的结果为:她是女生。

http://www.ppmy.cn/ops/106793.html

相关文章

kali——nikto的使用

目录 前言 使用方法 查看帮助(--help) 常规扫描(-h) 指定端口扫描(-h -p) 目录猜解(-h -C) 扫描敏感目录(-h) 保存扫描信息 前言 linux自带的nikto工…

操作系统与Linux面试题

1. 什么是操作系统的内核(Kernel) 操作系统的内核是操作系统的核心部分,负责系统的内存管理,硬件设备的管理,文件系统的管理以及应用程序的管理。操作系统的内核是连接应用程序和硬件的桥梁,决定着操作系统…

【论文分享】sNPU: Trusted Execution Environments on Integrated NPUs 24‘ISCA

目录 AbstractINTRODUCTIONBACKGROUND AND RELATED WORKTrusted Execution Environment (TEE)Neural Processing Unit (NPU)Integrated NPU v.s. Discrete NPU Multi-tasking Requirements for NPUsLow NPU utilization for a single ML workloadSimultaneous execution of bot…

【设计文档】数据库设计说明书(Word实际项目案例参考)

一、 总述 (一) 编写目的 二、 外部设计 (一) 环境说明 (二) 指导 三、 物理实现 (一) 物理结构 (二) 安全设计 四、 表设计结构 (一&am…

Cesium加载高速公路样式线图层和利用CSS撰写高速公路样式

在ArcGIS软件中是将多个线图层叠加(宽的叠加在下方防止遮盖其他图层) 依照此想法在Cesium中加载高速公路线图层时 在 Cesium 中,直接设置线(如 Polyline)的样式为“高速公路样式”并不直接支持,因为 Cesiu…

axios设置responseType: ‘blob‘,获取接口返回的错误信息

在axios的请求中当后端接口返回的是文件流的情况下,我们需要在请求参数里面设置responseType: blob,如果接口报错,默认前端无法获取后端返回的错误信息。 解决方法:通过FileReader获取错误信息 async handleFetch() {const res aw…

【苍穹外卖】Day3 菜品接口

1 公共字段自动填充(待添加) 2 菜品接口 2.1 新增菜品 2.1.1 根据类型查询分类 接口 (已完成) 2.1.2 文件上传 接口 通用接口 配置文件 在自定义配置类中定义了四个属性 在配置文件中 代表当前使用的配置环境是 dev 开发环境 …

谷歌计划在越南设立首个美国科技数据中心

据一位知情人士透露,Alphabet 子公司谷歌正在考虑在越南建立一个大型数据中心。 如果实现,这将标志着美国科技巨头在东南亚国家首次进行此类大规模投资。 据一位匿名人士透露,谷歌正在评估在越南南部经济中心胡志明市附近建立一个“超大规模…

rsync搭建全网备份

rsync搭建全网备份 1. 总体概述1.1 目标1.2 简易指导图1.3 涉及工具或命令1.4 环境 2. 实施2.1 配置备份服务器2.2 备份文件准备2.3 整合命令2.4 扩展功能 1. 总体概述 1.1 目标 本次搭建目标: 每天定时把服务器数据备份到备份服务器备份完成后进行校验把过期数据…

android AccessibilityService合法合规增加小红书曝光阅读量(2024-09-02)

免责任声明: 任何可操作性的内容与本人无关,文章内容仅供参考学习,如有侵权损害贵公司利益,请联系作者,会立刻马上进行删除。 一、分析 目前可增加曝光阅读流量渠道入口(完成) 1. 发现页 打开小红书app选择顶部发现页&…

VOS3000外呼系统 如何注册 IMS

VOS3000 外呼系统是一个专业的语音通信平台,它支持多种通信协议,包括但不限于传统的PSTN(公共交换电话网络)和现代的IP电话系统。IMS(IP多媒体子系统)是基于IP网络的统一通信系统,它允许不同的运…

Elasticsearch:使用 LTR 进行个性化搜索

作者:来自 Elastic Max Jakob 如今,用户已经开始期待根据个人兴趣定制搜索结果。如果我们听的所有歌曲都是摇滚歌曲,那么在搜索 “Crazy” 时,我们会期望 Aerosmith 的歌曲排在搜索结果的首位,而不是 Gnarls Barkley 的…

easy_spring_boot Java 后端开发框架

Easy SpringBoot 基于 Java 17、SpringBoot 3.3.2 开发的后端框架,集成 MyBits-Plus、SpringDoc、SpringSecurity 等插件,旨在提供一个高效、易用的后端开发环境。该框架通过清晰的目录结构和模块化设计,帮助开发者快速构建和部署后端服务。…

大数据系列之:查看Centos服务器用户可以创建的最大线程数、查看系统内核支持的最大线程数、查看系统支持的最大进程数、设置最大线程数限制、查看进程使用的线程数

大数据系列之:查看Centos服务器用户可以创建的最大线程数、查看系统内核支持的最大线程数、查看系统支持的最大进程数、设置最大线程数限制、查看进程使用的线程数 显示当前用户的资源限制查看用户可以创建的最大线程指定进程的资源限制查看系统内核支持的最大线程数查看系统支…

探秘DevSecOps黄金管道,安全与效率的完美融合

软件应用的安全性已成为企业和用户关注的焦点,DevSecOps作为一种将安全融入开发和运维全过程的理念和实践,旨在消除传统开发模式中安全被后置处理的弊端。DevSecOps黄金管道(Golden Pipeline)是实现这一理念的核心框架&#xff0c…

算法训练营|图论第11天 Floyd算法 A*算法

题目&#xff1a;Floyd算法 题目链接&#xff1a; 97. 小明逛公园 (kamacoder.com) 代码&#xff1a; #include<bits/stdc.h> using namespace std; struct Edge {int to;int val;Edge(int t, int w) :to(t), val(w) {} }; int main() {int n, m;cin >> n >…

ubuntu 安装 jdk

1.安装java开发环境包jdk sudo apt update sudo apt install openjdk-8-jdk 2.配置环境变量 步骤二:配置环境变量 安装完JDK后&#xff0c;我们需要配置环境变量&#xff0c;以便系统能够正确地找到Java相关的可执行文件。打开终端并执行以下命 sudo nano /etc/environment 这…

OpenGL/GLUT实践:实现反弹运动的三角形动画与键盘控制(电子科技大学信软图形与动画Ⅱ实验)

源码见GitHub&#xff1a;A-UESTCer-s-Code 文章目录 1 运行效果2 实验过程2.1 环境配置2.2 绘制三角形2.2.1 渲染函数2.2.2 主函数2.2.3 运行结果 2.3 调整窗口大小2.4 简单动画与按键控制2.4.1 简单旋转2.4.2 键盘控制 2.5 窗口反弹动画2.5.1 处理窗口大小变化2.5.2 渲染函数…

时间序列的解密者:循环神经网络在时间序列分析中的应用

时间序列的解密者&#xff1a;循环神经网络在时间序列分析中的应用 时间序列分析是数据科学中的一个重要领域&#xff0c;它涉及对按时间顺序排列的数据点进行分析&#xff0c;以识别趋势、周期性和异常。循环神经网络&#xff08;RNN&#xff09;是一种特别适合处理序列数据的…

session机制

场景&#xff1a;当众多用户访问网站&#xff0c;发出HTTP请求&#xff0c;那么网站是如何判断哪个HTTP请求对应的是哪个用户 &#xff1f; 作用&#xff1a;用于服务端区分用户。 当用户使用客户端登录时&#xff0c;服务端会进行验证&#xff0c;验证通过后会为这次登录创建…