【声音场景分类--论文阅读】

server/2025/1/15 20:20:30/

1.基于小波时频图特征在声音场景分类

基于小波时频图特征在声音场景分类任务中的表现
在这里插入图片描述

2.增强增强高效音频分类网络

https://arxiv.org/pdf/2204.11479v5
https://github.com/Alibaba-MIIL/AudioClassfication
音频分类网络如图4所示。在此阶段,主要重点是建立一个神经网络具有较大的感受野,同时保持较低的复杂性。可以将网络分解为两个主块、1D卷积堆栈和变换器编码器块。前者沿时间轴进行降采样
其中卷积层耦合到固定低通滤波器[29,30],然后是间歇残差块[18]。这个残差块根据[31]进行修改,由深度卷积和大核操作组成f(x)是跨通道操作的核大小等于1的卷积。此时,信号
使用一系列因子di除以总因子d进行抽取=Qdi例如,5秒的信号下采样序列的持续时间等于[4,4,4,4],执行256倍的缩减。这可能是为了在某种程度上与频谱图操作期间进行的下采样有关。以下构建块执行进一步减少,每次减少后都有一堆扩张的残余块[32]。这种改进能够提高在每帧的感受野中,因此对环境类中的可变持续时间事件更具鲁棒性声音场景。使用变压器编码器块实现了跨帧收集特征图,该块然后是全连接层,将嵌入向量投影到类空间。
在这里插入图片描述

3.PANNs:大规模预训练音频神经网络音频模式识别

https://arxiv.org/pdf/1912.10211v5
https://github.com/qiuqiangkong/audioset_tagging_cnn
Wavegram CNN和Wavegram Logmel CNN for AudioSet标签。我们提出的Wavegram CNN是一个时域音频标签系统。Wavegram是我们提出的一个功能这类似于log-mel频谱图,但使用神经网络。波形图被设计用来学习傅里叶变换的时频表示转变。波形图具有时间轴和频率轴。频率模式对于音频模式识别很重要,例如,具有不同音高偏移的声音属于同一个班级。波形图旨在学习频率一维CNN中可能缺少的信息系统。波形图也可能比手工制作的原木更好通过学习一种新的时频来获得mel谱图从数据转换。然后,波形图可以代替log-mel光谱图作为输入特征,形成我们的WavegramCNN系统。我们还结合了Wavegram和log-mel频谱图作为构建Wavegram-LogmelCNN系统的新功能.
在这里插入图片描述


http://www.ppmy.cn/server/158647.html

相关文章

如何规模化实现完全自动驾驶?Mobileye提出解题“新”思路

在CES 2025上,Mobileye展示了端到端自动驾驶系统Mobileye Drive™,通过高度集成的传感器、算法和计算平台,可以实现自动驾驶功能的全覆盖。 Mobileye创始人兼首席执行官Amnon Shashua教授 期间,Mobileye创始人兼首席执行官Amnon …

C++实现设计模式---模板方法模式 (Template Method)

模板方法模式 (Template Method) 模板方法模式 是一种行为型设计模式,它定义了一个操作中的算法骨架,将某些步骤的实现延迟到子类。通过模板方法,子类可以在不改变算法结构的情况下重新定义算法的某些步骤。 意图 在一个方法中定义算法的骨…

力扣264. 丑数 II

给你一个整数 n ,请你找出并返回第 n 个 丑数 。丑数 就是质因子只包含 2、3 和 5 的正整数。 //用一个数组来保存第1到第n个丑数 //一个丑数必须是乘以较小的丑数的 2、3 或 5来得到。 //使用三路合并方法:L2、L3 和 L5三个指针遍历2、3、5倍的丑数序列…

C++例程:使用I/O模拟IIC接口(6)

完整的STM32F405代码工程I2C驱动源代码跟踪 一)myiic.c #include "myiic.h" #include "delay.h" #include "stm32f4xx_rcc.h" //初始化IIC void IIC_Init(void) { GPIO_InitTypeDef GPIO_InitStructure;RCC_AHB1PeriphCl…

MC1.12.2 macOS高清修复OptiFine运行崩溃

最近在玩RLCraft,在windows中运行正常的,移植到macOS中发现如果加载OptiFine模组就会崩溃 报错日志 报错日志如下,其中已经包含了各种版本信息,我就不单独说明了。这里说一下,报错的时候用的是oracle jdk x64的&…

测试开发之面试宝典

目录 session和cookie的区别 session和cookie的区别 1.session和cookie都是鍵值对应的 2.session和cookie都是服务器生成的,session的ID,即服各器用来识别读取session对象的一把钥匙 3.session是保存在服各器端,而cookie是返回給客戶端的&…

了解如何学习自然语言处理技术

可以从以下几个方面入手: 1. 掌握基础理论知识 数学基础: 概率论与数理统计:NLP 很多算法基于概率模型,如语言模型用于预测一个词序列出现的概率,朴素贝叶斯分类器在文本分类中广泛应用,这些都依赖概率计算…

Docker 安装开源的IT资产管理系统Snipe-IT

一、安装 1、创建docker-compose.yaml version: 3services:snipeit:container_name: snipeitimage: snipe/snipe-it:v6.1.2restart: alwaysports:- "8000:80"volumes:- ./logs:/var/www/html/storage/logsdepends_on:- mysqlenv_file:- .env.dockernetworks:- snip…