语音领域的波束形成Beamforming小结

news/2024/11/25 2:52:38/

关注、点赞、收藏是对我最大的支持，谢谢^v^

目录

1. 背景介绍

2. 多通道信号的公式描述

3. 传统波束形成（delay-and-sum和filter-and-sum）

4. MVDR

4.1 传统MVDR

4.2 融入深度学习的MVDR

5. GEV(Generalized eigenvalue) beamformer

6. GSC(Generalized sidelobe canceler)

1. 背景介绍

波束形成是个很有意思的方向，应用从雷达领域到5G领域，近几年在语音识别领域也大放光彩。本文主要聚焦于波束形成在语音领域的应用。

对于单麦克风来说，没有波束的概念；波束形成主要针对多麦克风阵列，融合多个通道的数据，对噪声和干扰方向进行抑制，增强目标方向的信号。

一种方式是找到目标信号的方向，一般用导向矢量（steering vector）进行表示，基于此增强目标信号；一种方式是找到干扰信号的方向，进行抑制，剩下的就是目标信号。

2. 多通道信号的公式描述

图1：M个麦克组成的线性阵列

观察信号的数学表达（频域形式）如下，这里的

表示信号传到两个麦克之间的时间差，如果声音入射角是theta，还需要乘以 $cos \theta$ ，某频率的波传递了多少个周期，再乘以该波的频率

表示连续两个麦克风之间的相位差

其实用 $2\pi \delta cos\theta /\lambda$ 表示相位差更容易理解，其中 $\lambda =c/f$ 表示频率f的波长

3. 传统波束形成（delay-and-sum和filter-and-sum）

delay-and-sum: 传统的波束形成可以描述为一个空间滤波器，用该滤波器构建一个特定的波束方向图；可以分解为两步：时间对其和加权求和。时间对齐的物理意义在于，某一固定方向信号，传递到麦克风阵列时，不同麦克之间存在相位差，将信号理解为波，让波对齐，再加权求和就起到了增加信号的作用。时间对齐控制着波束方向，加权求和控制着主瓣的波束宽度和旁瓣的特性。

filter-and-sum: 它是上述delay-and-sum的扩展，将简单的delay操作用滤波filter操作代替，更具扩展性。

4. MVDR

4.1 传统MVDR

阵列采集信号： $X(\omega)=d(\theta)X_s(\omega)+v(\omega)$

目标：得到信号源 $X_s(\omega )$ 的无偏、最小方差估计

无畸变约束保证语音不失真，最小输出功率保证干扰噪声被最小化。

转换成带经典约束条件的凸优化问题：

$min {w^{H}R_{xx}w}$

$w^{H}d(\theta)=1$

最优解

需要计算出导向矢量 $d(\theta)$ 和协方差矩阵。

MVDR是一种自适应波束形成器，而Delay-and-Sum是固定波束形成器。当各个通道的噪声互不相关，并且具有相同功率的时候， MVDR退化成Delay-and-Sum。如果噪声是一个点声源， MVDR会自适应地在噪声方向形成一个零点。

4.2 融入深度学习的MVDR

引入深度学习的目的：更好的估计目标信号或噪声信号的协方差矩阵。

Ø 四步走 ： NN 估计频谱 mask --> 计算空间协方差矩阵(也就是互功率谱) -->计算导向矢量--> 计算波束形成权重

5. GEV(Generalized eigenvalue) beamformer

GEV同MVDR极为相似，不同之处在于目标准则，MVDR为最小化输出功率（在无畸变的约束下），GEV为最大化SNR。

$w_f ^{GEV} = argmax \frac{w_f^H R_f ^{speech}w_f}{w_f^H R_f ^{noise}w_f}$

该问题转换为广义特征值问题（generalized eigenvalue problem）

$R_f ^{speech}w_f = \lambda R_f ^{noise}w_f$

最优波束系数为广义主成分。

不同于MVDR，GEV波束形成器会引入语音失真。需要增加后置滤波（post-filter）。

6. GSC(Generalized sidelobe canceler)

Griffiths and Jim (1982)提出将MVDR分解为两个正交的波束形成器GSC，一个用于满足无畸变响应约束，另一个用于噪声功率最小化。

固定波束形成器 $w_0^H$

阻塞矩阵 $B^H$ ：为产生只包含噪声的信号

自适应噪声相消器 $g^H$ ：用于消除固定波束形成中的噪声信号

参考资料

[1] Fundamentals of Signal Enhancement and Array Signal Processing

[2] 麦克风阵列信号处理

[3] NEURAL NETWORK BASED SPECTRAL MASK ESTIMATION FOR ACOUSTIC BEAMFORMING

[4] Audio source separation and speech enhancement

关注、点赞、收藏是对我最大的支持，谢谢^v^

http://www.ppmy.cn/news/357469.html

相关文章

麦克风阵列杂音很重解决方案（科大讯飞麦克风阵列+6.0）

麦克风阵列杂音很重解决方案（科大讯飞麦克风阵列+6.0）

使用独立电源使用独立电源使用独立电源实验室买了一块科大讯飞的麦克风阵列6.0…… 昨天测试了下杂音非常重…… 语音测试的音频下载链接：http://download.csdn.net/detail/zmdsjtu/9652413 直接连耳机发现即便有噪音也在能忍受的范围之内所以初步分析是语音输…

阅读更多...

基于javaweb的小蜜蜂扩音器网上商城系统(java+jsp+servlet+jdbc+ajax+mysql)

基于javaweb的小蜜蜂扩音器网上商城系统(java+jsp+servlet+jdbc+ajax+mysql)

基于javaweb的小蜜蜂扩音器网上商城系统(javajspservletjdbcajaxmysql) 运行环境 Java≥8、MySQL≥5.7、Tomcat≥8 开发工具 eclipse/idea/myeclipse/sts等均可配置运行适用课程设计，大作业，毕业设计，项目练习，学习演示等…

阅读更多...

麦克风阵列语音增强beamforming算法

麦克风阵列语音增强beamforming算法

delay and sum 关键步骤在于计算延时, 可以通过GCC-PHAT方法进行计算, 即广义互相关-相位变换方法. GCC-PHAT(广义互相关-相位变换) x(n) 和 y(n) 的互相关函数是将 x(n) 保持不动, y(n) 左移m个样本点, 两个序列逐个相乘的结果, 顺序不能互换. 但是, 按照时域卷积的方式求…

阅读更多...

【语音增强】基于matlab多维谱自适应小波语音信号去噪【含Matlab源码 1972期】

【语音增强】基于matlab多维谱自适应小波语音信号去噪【含Matlab源码 1972期】

⛄一、自适应小波语音信号去噪 1 引言语音信号在传输过程中，容易受到环境噪声和其他语音的干扰，降低了语音通信质量，影响了语音处理系统工作。所以，语音的净化处理技术，在现代语音通信和数字音频广播系统中起到愈来愈…

阅读更多...

Waveform Audio[译]

Waveform Audio[译]

最近要做远程控制的语音部分。。。。把WaveForm Audio看一篇。翻译一下。。总体分三个小节 About Waveform Audio Using Waveform and Auxiliary Audio Waveform Audio Reference 一、关于波形音频增加声音到你的应用程序中，把它变得更加实用的有趣。你可以通过使…

阅读更多...

科大讯飞麦克风阵列使用感受（六麦，XFM10621）

科大讯飞麦克风阵列使用感受（六麦，XFM10621）

惯例开头放干货： 1． XFM10621麦克风阵列可以被特定关键词唤醒 2． 可以定位唤醒人相对于麦克风的方向，返回一个角度值（精确到度） 3． 可以只听取唤醒人方向的声音，其他方向的声音会有…

阅读更多...

BeeWare官方教程中文版

BeeWare官方教程中文版

BeeWare官方教程中文文档下载地址以下内容为按照教程在windows平台测试。安装python 如果你使用Windows系统，可以从python官网获取官方安装包。可以使用3.7之后的任何稳定版本的Python。建议避免使用阿尔法，贝塔和其他已经发布的候选版本。安装依赖…

阅读更多...

硬屏软屏哪个寿命长？

硬屏软屏哪个寿命长？

软屏与硬屏之分中国物理学会液晶分会理事陈其良先生介绍，所谓硬屏，就是在液晶屏面加了一层硬度较高的透明树脂质料保护外膜的产品，该工艺最初由日立等日系厂商所推广，后来LG将其进行了改良，这就是所谓的硬屏。那么硬…

阅读更多...

最新文章