【声音场景分类--论文阅读】

ops/2025/1/12 7:06:24/

1.基于小波时频图特征在声音场景分类

基于小波时频图特征在声音场景分类任务中的表现
在这里插入图片描述

2.增强增强高效音频分类网络

https://arxiv.org/pdf/2204.11479v5
https://github.com/Alibaba-MIIL/AudioClassfication
音频分类网络如图4所示。在此阶段,主要重点是建立一个神经网络具有较大的感受野,同时保持较低的复杂性。可以将网络分解为两个主块、1D卷积堆栈和变换器编码器块。前者沿时间轴进行降采样
其中卷积层耦合到固定低通滤波器[29,30],然后是间歇残差块[18]。这个残差块根据[31]进行修改,由深度卷积和大核操作组成f(x)是跨通道操作的核大小等于1的卷积。此时,信号
使用一系列因子di除以总因子d进行抽取=Qdi例如,5秒的信号下采样序列的持续时间等于[4,4,4,4],执行256倍的缩减。这可能是为了在某种程度上与频谱图操作期间进行的下采样有关。以下构建块执行进一步减少,每次减少后都有一堆扩张的残余块[32]。这种改进能够提高在每帧的感受野中,因此对环境类中的可变持续时间事件更具鲁棒性声音场景。使用变压器编码器块实现了跨帧收集特征图,该块然后是全连接层,将嵌入向量投影到类空间。
在这里插入图片描述

3.PANNs:大规模预训练音频神经网络音频模式识别

https://arxiv.org/pdf/1912.10211v5
https://github.com/qiuqiangkong/audioset_tagging_cnn
Wavegram CNN和Wavegram Logmel CNN for AudioSet标签。我们提出的Wavegram CNN是一个时域音频标签系统。Wavegram是我们提出的一个功能这类似于log-mel频谱图,但使用神经网络。波形图被设计用来学习傅里叶变换的时频表示转变。波形图具有时间轴和频率轴。频率模式对于音频模式识别很重要,例如,具有不同音高偏移的声音属于同一个班级。波形图旨在学习频率一维CNN中可能缺少的信息系统。波形图也可能比手工制作的原木更好通过学习一种新的时频来获得mel谱图从数据转换。然后,波形图可以代替log-mel光谱图作为输入特征,形成我们的WavegramCNN系统。我们还结合了Wavegram和log-mel频谱图作为构建Wavegram-LogmelCNN系统的新功能.
在这里插入图片描述


http://www.ppmy.cn/ops/149374.html

相关文章

汽车电子相关的协议UDS、DOIP、CAN

UDS协议 UDS(Unified Diagnostic Services,统一诊断服务协议) 是一种标准化的通信协议,广泛应用于汽车电子系统中,尤其是在车辆诊断和服务过程中。它用于车辆的诊断、维护、控制和测试,支持通过车载诊断接…

1. 初识Scala

背景 Scala是为了解决Java在函数式编程、类型推断、模式匹配等方面的不足而诞生的。它提供了更简洁的语法、更强的类型系统和更丰富的函数式编程特性,使得开发者能够以更高效、更灵活的方式编写代码。在大数据框架spark中,大量使用了scala的语法&#x…

新版本的IDEA如何解决Git分支显示为警告⚠<unknown>的问题

目录 问题再现 解决思路 首先我们要想到 这个分支有没有从远程代码仓库拉去下来 复习一下 git 命令 其次思考 最后思考 问题再现 这边我使用的是 IDEA 2024.3.3.1 Jetbrains 官网的最新版 同时也是官方账号登录 的 今天上 github 去拉项目到 本地 出现了分支不显示的问…

c++领域展开第十幕——类和对象(内存管理——c/c++内存分布、c++内存管理方式、new/delete与malloc/free区别)超详细!!!!

文章目录 前言一、c/c内存分布二、c的内存管理方式2.1new/delete操作内置类型2.2new和delete操作自定义类型 三、operator new与operator delete函数3.1operator new与operator delete函数 四、new和delete的实现原理4.1 内置类型4.2 自定义类型 五、malloc/free和new/delete的…

centos systemd方式配置jar开机自启

将后端服务(一个 Java 应用程序)注册为 CentOS 上的 systemd 服务,可以让你方便地管理其启动、停止和重启。以下是详细步骤: 创建 systemd 服务单元文件 创建一个 systemd 服务单元文件,例如 /etc/systemd/system/de…

C++感受15-Hello STL 泛型启蒙

生鱼片和STL的关系,你听过吗?泛型编程和面向对象编程,它们打架吗?行为泛型和数据泛型,各自的目的是? 0 楔 俄罗斯生鱼片,号称俄罗斯版的中国烤鸭,闻名于世。其鱼肉,源于…

ASP.NET Core 中,Cookie 认证在集群环境下的应用

在 ASP.NET Core 中,Cookie 认证在集群环境下的应用通常会遇到一些挑战。主要的问题是 Cookie 存储在客户端的浏览器中,而认证信息(比如 Session 或身份令牌)通常是保存在 Cookie 中,多个应用实例需要共享这些 Cookie …

单片机实现模式转换

[任务] 要求通过单片机实现以下功能: 1.单片机有三种工作模式(定义全局变量MM表示模式,MM1,2,3表示三种不同的模式) LED控制模式 风扇控制模式 蜂鸣器控制模式 2.可以在某一个模式下通过拓展板KEY1按键控制设备 (按…