AI文本转语音:Toucan TTS 支持 7000 多种语言的语音合成工具箱,突破性 OCR 技术:支持多种语言识别,媲美顶级云服务

AI文本转语音:Toucan TTS 支持 7000 多种语言的语音合成工具箱,突破性 OCR 技术:支持多种语言识别,媲美顶级云服务。

在这里插入图片描述

AI文本转语音:Toucan TTS 支持 7000 多种语言的语音合成工具箱

Toucan TTS是由德国斯图加特大学自然语言处理研究所(MS)精心打造的文本转语音TTS)工具箱,它支持超过7000种语言,包括多样的方言和语言变体。这款工具箱建立在Python和PyTorch框架之上,不仅易于操作,而且功能全面,能够实现多声源语音合成、语音风格模仿以及人机交互的语音编辑。Toucan TTS适用于教育、朗读、多语言软件开发等多种应用场景。作为一个开源项目,它遵循Apache 2.0许可证,鼓励用户和开发者自由地使用和修改源代码,以满足个性化的应用需求。

功能特点
多语言语音合成
Toucan TTS 能够处理和生成超过 7000 种不同语言的语音,包括各种方言和语言变体,使其成为全球语言支持最广泛的 TTS 项目之一。

多说话人支持
该工具箱支持多说话人语音合成,允许用户选择或创建具有不同语音特征的说话人模型,实现个性化的语音输出。

人机交互编辑
Toucan TTS 提供了人机交互编辑功能,用户可以对合成的语音进行细致调整,以适应不同的应用场景,如文学朗诵或教育材料。

语音风格克隆
用户可以利用 Toucan TTS 克隆特定说话人的语音风格,包括节奏、重音和语调,使合成语音更加贴近原说话人的声音特征。

语音参数调整
Toucan TTS 允许用户调整语音的持续时间、音调变化和能量变化等参数,以控制语音的流畅度、情感表达和声音特征。

发音清晰度和性别特征调整
用户可以根据需要调整语音的清晰度和性别特征,使合成语音更加自然,并符合特定角色或场景的需求。

交互式演示
Toucan TTS 提供了在线交互式演示,用户可以通过网页界面实时体验和测试语音合成效果,帮助用户快速理解和使用工具箱的功能。

应用场景
文学朗诵
合成诗歌、文学作品、网页内容的语音,供朗诵欣赏或作为有声读物。
多语言应用开发
为需要多语言支持的应用程序提供语音合成服务,如国际化软件和游戏。
辅助技术
为视障人士或阅读困难者提供文本到语音的服务,帮助他们更好地获取信息。
客户服务
在客户服务系统中使用,提供多语言的自动语音回复或交互式语音响应系统。
新闻与媒体
自动将新闻文章转换为语音,为忙碌的听众提供便捷的新闻获取方式。
电影和视频制作
为电影、动画或视频内容生成配音,尤其是当原始音频不可用或需要特定语言版本时。
有声书制作
将电子书或文档转换为有声书,提供给偏好听书的用户。
使用与体验
非开发人员可以前往Hugging Face体验Toucan TTS的在线文本转语音和语音克隆Demo

https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS

开发人员可以 访问其GitHub项目库,克隆其代码到本地进行部署和运行。

https://github.com/DigitalPhonetics/IMS-Toucan


突破性 OCR 技术:支持多种语言识别,媲美顶级云服务

Surya 是一个文档 OCR 工具包,其功能如下:

支持 90 多种语言的 OCR,与云服务相比更具优势
任何语言的行级文本检测
布局分析(表格、图像、标题等检测)
阅读顺序检测
https://github.com/VikParuchuri/surya

使用场景
文字识别(OCR)
文本检测(Detection)
布局分析
阅读顺序检测

快速使用
安装
您需要 Python 3.9+ 和 PyTorch。如果您使用的不是 Mac 或 GPU 机器,则可能需要先安装 CPU 版本的 torch。请参阅此处了解更多详细信息。

安装方式:

pip install surya-ocr

首次运行 Surya 时,模型权重将自动下载。请注意,该工具目前不兼容 transformers 4.37+ 版本,因此需要使用 4.36.2 版本(已随 Surya 一同安装)。

成功安装 surya-ocr 之后,你可以执行以下步骤,配置 surya 运行环境:

检查 surya/settings.py 中的设置。你可以用环境变量覆盖任何设置。
你的 torch 设备会被自动检测到,但你可以覆盖它。例如,TORCH_DEVICE=cuda。在文本检测方面,Apple 平台的 mps 设备有一个错误,可能会导致其无法正常工作。
文字识别(OCR)
文字识别模型在 4x A6000 上进行了为期 2 周的训练。训练时使用了改进的 donut 模型(GQA、MoE 层、UTF-16 解码、层配置更改)。

from PIL import Image
from surya.ocr import run_ocr
from surya.model.detection import segformer
from surya.model.recognition.model import load_model
from surya.model.recognition.processor import load_processorimage = Image.open(IMAGE_PATH)
langs = ["en"] # Replace with your languages
det_processor, det_model = segformer.load_processor(), segformer.load_model()
rec_model, rec_processor = load_model(), load_processor()predictions = run_ocr([image], [langs], det_model, det_processor, rec_model, rec_processor)

文本行检测(Text Line Detection)
文本检测模型在 4x A6000 上进行了为期 3 天的训练。它使用一组不同的图像作为训练数据。它使用改进的 segformer 架构从头开始训练,从而降低了对推理 RAM 的要求。

from PIL import Image
from surya.detection import batch_text_detection
from surya.model.detection.segformer import load_model, load_processorimage = Image.open(IMAGE_PATH)
model, processor = load_model(), load_processor()# predictions is a list of dicts, one per image
predictions = batch_text_detection([image], model, processor)

布局分析(Layout Analysis)

from PIL import Image
from surya.detection import batch_text_detection
from surya.layout import batch_layout_detection
from surya.model.detection.segformer import load_model, load_processor
from surya.settings import settingsimage = Image.open(IMAGE_PATH)
model = load_model(checkpoint=settings.LAYOUT_MODEL_CHECKPOINT)
processor = load_processor(checkpoint=settings.LAYOUT_MODEL_CHECKPOINT)
det_model = load_model()
det_processor = load_processor()# layout_predictions is a list of dicts, one per image
line_predictions = batch_text_detection([image], det_model, det_processor)
layout_predictions = batch_layout_detection([image], model, processor, line_predictions)

阅读顺序检测

from PIL import Image
from surya.ordering import batch_ordering
from surya.model.ordering.processor import load_processor
from surya.model.ordering.model import load_modelimage = Image.open(IMAGE_PATH)
# bboxes should be a list of lists with layout bboxes for the image in [x1,y1,x2,y2] format
# You can get this from the layout model, see above for usage
bboxes = [bbox1, bbox2, ...]model = load_model()
processor = load_processor()# order_predictions will be a list of dicts, one per image
order_predictions = batch_ordering([image], [bboxes], model, processor)# Benchmarks

http://www.ppmy.cn/server/104878.html

相关文章

《断点回归的非参数估计及 Stata 实现》

目录 一、引言 二、文献综述 三、理论原理 四、实证模型 五、稳健性检验 六、程序代码及解释 七、代码运行结果及解释 一、引言 断点回归(Regression Discontinuity,RD)设计是一种准实验方法,用于评估政策或干预措施的因果…

MySQL数据库锁机制(全面讲解)

目录 1、全局锁 1.1、全局锁使用语法 1.2、备份数据库(不使用全局锁) 2、表锁 2.1、读写锁 读锁 写锁 2.2、元数据锁(meta data lock MDL) 2.3、意向锁 3、行锁 3.1、共享锁和排他锁 共享锁(S锁&#xff…

零基础5分钟上手亚马逊云科技-高可用Web系统设计最佳实践

简介: 欢迎来到小李哥全新亚马逊云科技AWS云计算知识学习系列,适用于任何无云计算或者亚马逊云科技技术背景的开发者,通过这篇文章大家零基础5分钟就能完全学会亚马逊云科技一个经典的服务开发架构方案。 我会每天介绍一个基于亚马逊云科技…

letcode 分类练习 110. 平衡二叉树 257. 二叉树的所有路径 404. 左叶子之和 222. 完全二叉树的节点个数

letcode 分类练习 110. 平衡二叉树 101. 对称二叉树 104.二叉树的最大深度 111.二叉树的最小深度 110. 平衡二叉树257. 二叉树的所有路径404. 左叶子之和222. 完全二叉树的节点个数 101. 对称二叉树 104.二叉树的最大深度 111.二叉树的最小深度) 110. 平衡二叉树 用递归的思路检…

初始redis:List

列表 List 相当于数组或者顺序表。 对于List来说,两侧都可以插入和删除,时间复杂度是O(1)。 有很多的操作,比如 llen 可以获取List的长度,lrem 可以删除元素 ,lrange可以去一个字符串 , lindex可以根据下标…

Tomcat学习进阶

目录 Apache Tomcat架构配置线程模型Tomcat 的类加载机制类加载器层次结构类加载流程 Tomcat 的优化策略Tomcat 的集群部署Tomcat故障排查 Apache Tomcat 架构配置 Apache Tomcat是一个开源的Java Servlet容器和Web服务器,它实现了Java EE规范中的Servlet和JSP API。…

SQL-约束篇

在数据库设计中,约束是确保数据完整性和准确性的关键元素。约束可以限制表中数据的类型、范围和关系,从而维护数据的一致性和可靠性。 1. 主键约束 (Primary Key) 主键约束用于唯一标识表中的每一行数据。一个表只能有一个主键,主键字段的值…

火狐浏览器应用商店不支持下载

前言 之前手机一直用的火狐浏览器,现在换了新的手机,又想下载使用,从官网直接下载现在直接跳载到Google Play才能下载,但是国内又用不了的,这里就记录一下怎么在手机应用商店不支持情况下载。 从FTP服务器下载Beta版…

PostgreSQL常用命令,启动连接,pg_dump导入导出

文章目录 1 PostgreSQL服务启动与停止、连接2 常用sql命令3 数据备份与恢复 1 PostgreSQL服务启动与停止、连接 在没有设置环境变量的情况下 需进入pgsql的bin目录 #Windows下启动 #打开“开始”菜单,找到 “PostgreSQL” 文件夹,找到 “pgAdmin” 应用…

Spring Boot中的过滤器与拦截器实战:实现用户认证与资源访问控制

源访问控制 概述 在构建Web应用时,我们经常需要实现诸如用户认证、资源访问控制等功能。Spring Boot 提供了多种工具来帮助开发者轻松实现这些需求。本文将介绍如何使用Spring Boot 3.x中的过滤器(Filter)和拦截器(Interceptor&…

TCP shutdown 之后~

目录 摘要 1 API 2 shutdown(sockfd, SHUT_WR) 3 shutdown(sockfd, SHUT_WR) 4 kernel 是怎么做的? 附 摘要 通过 shutdown() 关闭读写操作,会发生什么?具体点呢,考虑两个场景: 场景一:C 发送数据完毕…

【设计模式】单例模式

单例模式是一种常见的软件设计模式,它确保一个类只有一个实例,并提供一个全局访问点来访问这个实例。 一、定义与核心概念 单例模式的主要目的是限制一个类的实例化次数,只允许创建一个对象。这样可以在整个应用程序中共享同一个实例&#…

快速定位Linux中内存占用最多前几个进程

ps aux --sort-%mem | head 命令 ps aux --sort-%mem | head 在 Linux 和类 Unix 系统中用于显示当前系统中占用内存最多的前几个进程。让我们分解这个命令来理解它是如何工作的: ps aux:这是 ps 命令的一个常用选项组合,用于显示当前系统上…

Java面试题———MySql篇②

目录 1.事务隔离级别 2.数据库三大范式 3.索引的分类 4.索引的创建原则 5.索引失效的情况 6.如何知道索引是否失效 7.MyISAM和InnoDB的区别 1.事务隔离级别 事务隔离级别是用来解决并发事务问题的方案,不同的隔离级别可以解决的事务问题不一样 读未提交&…

周边乡村游小程序的设计

管理员账户功能包括:系统首页,个人中心,游客,景点信息管理,景点美食管理,美食类型管理,景点攻略管理,特产信息管理,特产类型管理,系统管理 微信端账号功能包…

XSS游戏

目录 XSS游戏-WarmupsMa Spaghet!JefffUgandan KnucklesRicardo MilosAh Thats HawtLigmaMafiaOk, BoomerWW3 XSS游戏-Warmups Ma Spaghet! 1. 尝试注入&#xff0c;输入aaaaaaaa 2. 显示在<h2>标签内3. 输入标签&#xff0c;添加onmouseover属性值为alert(1337)&…

单例模式详细

文章目录 单例模式介绍八种方式1、饿汉式&#xff08;静态常量&#xff09;2、饿汉式&#xff08;静态代码块&#xff09;3、懒汉式&#xff08;线程不安全&#xff09;4、懒汉式&#xff08;线程安全&#xff0c;同步方法&#xff09;5、懒汉式&#xff08;线程不安全&#xf…

1089:数字反转

1089&#xff1a;数字反转 时间限制: 1000 ms 内存限制: 65536 KB 提交数:115082 通过数: 61304 【题目描述】 给定一个整数&#xff0c;请将该数各个位上数字反转得到一个新数。新数也应满足整数的常见形式&#xff0c;即除非给定的原数为零&#xff0c;否则反转后…

UDP 和TCP的应用

一、网络模型 &#xff08;一&#xff09;C/S 模型 客户端 / 服务器&#xff08;Client/Server&#xff0c;C/S&#xff09;模型是一种常见的网络架构。在这种模型中&#xff0c;客户端是主动的角色&#xff0c;向服务器发起请求&#xff1b;服务器端是被动的角色&#xff0c;…

CSS的:scope伪类:精准定位表格元素的新策略

CSS&#xff08;层叠样式表&#xff09;是控制网页元素样式的强大工具。随着CSS规范的不断更新&#xff0c;新的选择器和伪类被引入&#xff0c;以增强开发者对页面元素的控制能力。:scope伪类是CSS中一个相对较新的特性&#xff0c;它允许开发者在特定的上下文中选择元素&…