语音领域的波束形成Beamforming小结

news/2024/11/25 2:52:38/

关注、点赞、收藏是对我最大的支持,谢谢^v^

目录

1. 背景介绍

2. 多通道信号的公式描述

3. 传统波束形成(delay-and-sum和filter-and-sum)

4. MVDR

4.1 传统MVDR

4.2 融入深度学习的MVDR

5. GEV(Generalized eigenvalue) beamformer

6. GSC(Generalized sidelobe canceler)


1. 背景介绍

        波束形成是个很有意思的方向,应用从雷达领域到5G领域,近几年在语音识别领域也大放光彩。本文主要聚焦于波束形成在语音领域的应用。

        对于单麦克风来说,没有波束的概念;波束形成主要针对多麦克风阵列,融合多个通道的数据,对噪声和干扰方向进行抑制,增强目标方向的信号。

        一种方式是找到目标信号的方向,一般用导向矢量(steering vector)进行表示,基于此增强目标信号;一种方式是找到干扰信号的方向,进行抑制,剩下的就是目标信号。

2. 多通道信号的公式描述

             图1:M个麦克组成的线性阵列

观察信号的数学表达(频域形式)如下,这里的

表示信号传到两个麦克之间的时间差,如果声音入射角是theta,还需要乘以cos \theta,某频率的波传递了多少个周期,再乘以该波的频率

表示连续两个麦克风之间的相位差

      其实用2\pi \delta cos\theta /\lambda表示相位差更容易理解,其中\lambda =c/f 表示频率f的波长

3. 传统波束形成(delay-and-sum和filter-and-sum)

        delay-and-sum: 传统的波束形成可以描述为一个空间滤波器,用该滤波器构建一个特定的波束方向图;可以分解为两步:时间对其和加权求和。时间对齐的物理意义在于,某一固定方向信号,传递到麦克风阵列时,不同麦克之间存在相位差,将信号理解为波,让波对齐,再加权求和就起到了增加信号的作用。时间对齐控制着波束方向,加权求和控制着主瓣的波束宽度和旁瓣的特性。

        filter-and-sum: 它是上述delay-and-sum的扩展,将简单的delay操作用滤波filter操作代替,更具扩展性。

4. MVDR

4.1 传统MVDR

阵列采集信号:X(\omega)=d(\theta)X_s(\omega)+v(\omega)

目标:得到信号源X_s(\omega )的无偏、最小方差估计

无畸变约束保证语音不失真,最小输出功率保证干扰噪声被最小化。

转换成带经典约束条件的凸优化问题:

min {w^{H}R_{xx}w}

w^{H}d(\theta)=1

最优解

需要计算出导向矢量d(\theta)和协方差矩阵。

MVDR是一种自适应波束形成器, 而Delay-and-Sum是固定波束形成器。当各个通道的噪声互不相关, 并且具有相同功率的时候, MVDR退化成Delay-and-Sum。如果噪声是一个点声源, MVDR会自适应地在噪声方向形成一个零点。

4.2 融入深度学习的MVDR

        引入深度学习的目的:更好的估计目标信号或噪声信号的协方差矩阵。

Ø 四步走 NN 估计频谱 mask -->  计算空间协方差矩阵(也就是互功率谱) -->计算导向矢量-->  计算波束形成权重

5. GEV(Generalized eigenvalue) beamformer

        GEV同MVDR极为相似,不同之处在于目标准则,MVDR为最小化输出功率(在无畸变的约束下),GEV为最大化SNR。

w_f ^{GEV} = argmax \frac{w_f^H R_f ^{speech}w_f}{w_f^H R_f ^{noise}w_f}

该问题转换为广义特征值问题(generalized eigenvalue problem)

R_f ^{speech}w_f = \lambda R_f ^{noise}w_f

最优波束系数为广义主成分。

不同于MVDR,GEV波束形成器会引入语音失真。需要增加后置滤波(post-filter)。

6. GSC(Generalized sidelobe canceler)

Griffiths and Jim (1982)提出将MVDR分解为两个正交的波束形成器GSC,一个用于满足无畸变响应约束,另一个用于噪声功率最小化。

        固定波束形成器w_0^H

        阻塞矩阵B^H:为产生只包含噪声的信号

        自适应噪声相消器g^H:用于消除固定波束形成中的噪声信号

参考资料

[1] Fundamentals of Signal Enhancement and Array Signal Processing

[2] 麦克风阵列信号处理

[3] NEURAL NETWORK BASED SPECTRAL MASK ESTIMATION FOR ACOUSTIC BEAMFORMING

[4] Audio source separation and speech enhancement

关注、点赞、收藏是对我最大的支持,谢谢^v^


http://www.ppmy.cn/news/357469.html

相关文章

麦克风阵列杂音很重解决方案(科大讯飞麦克风阵列+6.0)

使用独立电源 使用独立电源 使用独立电源 实验室买了一块科大讯飞的麦克风阵列6.0…… 昨天测试了下杂音非常重…… 语音测试的音频下载链接:http://download.csdn.net/detail/zmdsjtu/9652413 直接连耳机发现即便有噪音也在能忍受的范围之内 所以初步分析是语音输…

基于javaweb的小蜜蜂扩音器网上商城系统(java+jsp+servlet+jdbc+ajax+mysql)

基于javaweb的小蜜蜂扩音器网上商城系统(javajspservletjdbcajaxmysql) 运行环境 Java≥8、MySQL≥5.7、Tomcat≥8 开发工具 eclipse/idea/myeclipse/sts等均可配置运行 适用 课程设计,大作业,毕业设计,项目练习,学习演示等…

麦克风阵列语音增强beamforming算法

delay and sum 关键步骤在于计算延时, 可以通过GCC-PHAT方法进行计算, 即广义互相关-相位变换方法. GCC-PHAT(广义互相关-相位变换) x(n) 和 y(n) 的互相关函数是将 x(n) 保持不动, y(n) 左移m个样本点, 两个序列逐个相乘的结果, 顺序不能互换. 但是, 按照时域卷积的方式求…

【语音增强】基于matlab多维谱自适应小波语音信号去噪【含Matlab源码 1972期】

⛄一、自适应小波语音信号去噪 1 引言 语音信号在传输过程中,容易受到环境噪声和其他语音的干扰,降低了语音通信质量,影响了语音处理系统工作。所以,语音的净化处理技术,在现代语音通信和数字音频广播系统中起到愈来愈…

Waveform Audio[译]

最近要做远程控制的语音部分。。。。把WaveForm Audio看一篇。翻译一下。。总体分三个小节 About Waveform Audio Using Waveform and Auxiliary Audio Waveform Audio Reference 一、关于波形音频 增加声音到你的应用程序中,把它变得更加实用的有趣。你可以通过使…

科大讯飞麦克风阵列使用感受(六麦,XFM10621)

惯例开头放干货: 1. XFM10621麦克风阵列可以被特定关键词唤醒 2. 可以定位唤醒人相对于麦克风的方向,返回一个角度值(精确到度) 3. 可以只听取唤醒人方向的声音,其他方向的声音会有…

BeeWare官方教程中文版

BeeWare官方教程 中文文档下载地址 以下内容为按照教程在windows平台测试。 安装python 如果你使用Windows系统,可以从python官网获取官方安装包。可以使用3.7之后的任何稳定版本的Python。建议避免使用阿尔法,贝塔和其他已经发布的候选版本。 安装依赖…

硬屏软屏哪个寿命长?

软屏与硬屏之分 中国物理学会液晶分会理事陈其良先生介绍,所谓硬屏,就是在液晶屏面加了一层硬度较高的透明树脂质料保护外膜的产品,该工艺最初由日立等日系厂商所推广,后来LG将其进行了改良,这就是所谓的硬屏。 那么硬…