谈谈语音通信中的各种tone

news/2024/10/17 0:53:35/

今天谈的这个主题(tone)存在于我们的日常打电话过程中。先举两个场景:1,你拿起固话话筒准备打电话,按电话号码前先从话筒里听到“嗡”的连续音,这叫dial tone(拨号音,表示你可以拨电话号码了),你拨完号码对方振铃后你又听到有规律的“嘟-嘟-”的断续音,这叫ring back tone(回铃音,表示对方已振铃了)。2,你给企业服务号(比如中国移动的10086)打电话,对方叫你按键选择,当你按下键后会听到按键声,这叫DTMF tone(双音多频音)。感觉到它存在于我们日常的打电话过程中了吧。现在我们就从技术的角度谈谈这些tone。

在语音通信中tone主要分两大类:CPT(call progress tone,呼叫过程音)tone和DTMF(dual tone multi frequency,双音多频音)tone。CPT tone存在于通话过程中,主要用于告诉用户目前在什么状态,主要有dial tone(拨号音)/ringback tone(回铃音)/busy tone(忙音)等。CPT tone是单频音,即由一个频率的正弦波形成。CPT tone没有全球统一的标准,而是各个国家有自己的标准,比如中国的标准,欧洲的标准,美国的标准等。下表就是我们国家的标准:

                                            

还有其他类型的CPT tone,由于用的相对较少,这里就不一一列出了。相对于CPT tone是单频音,DTMF tone是双频音,即用两个频率(一个高频和一个低频)的正弦波叠加去表示某个按键值。与CPT tone各国有自己的标准不同的是DTMF tone全球有统一的标准,下表列出了常用的16个按键值是由哪些高频音和低频音组合而成的:

                                                        

 

从软件实现的角度对tone主要有两类处理:tone generation,让用户听到tone;tone detection,主要是指DTMF tone的detection,让软件知道哪个按键按下了,好进行后续的处理。我们先看tone generation,也就是生成单个频率的正弦波(CPT tone)或者两个频率正弦波的叠加(DTMF tone),在信号处理上有相应的算法。对于单频正弦波,各个采样点上值的生成可通过如下的数学表达式求得:

                                                                              

其中a/y(0)/y(1)在各个频点上的值已事先根据数学公式做成表,从而减少数学运算。对于DTMF这样的双频率音来说,采样点上的值就是两个频率采样点上的值相加。Tone generation分两个方向,local 和remote。Local是tone让自己听到,把生成的正弦波放到RX stream上;remote是tone让对端听到,把生成的正弦波放到TX stream上。对于像ring back tone等断续音还需要timer控制放多长时间停多长时间。

再来看tone detection,这里主要是指对DTMF的tone detection。有专门的算法(Goertzel戈泽尔算法)来detect DTMF的键值,把DTMF的音频信号(多帧的PCM信号)作为算法的输入,经过一定帧数后得到的就是DTMF的键值。原理这里就不详细讲了,有兴趣的可以看相关文章。有时候我们需要告诉对端按下的是什么DTMF键,即要把键值传给对端,主要有三种方法,具体如下:

1,把DTMF音频信号直接编码得到码流放在RTP中发给对端。对端收到RTP包后解码复原出音频信号,然后再通过DTMF detection算法得到键值。这通常被叫做in-band方法。

2,在本端做DTMF detection得到键值,然后根据RFC2833(后来升级成RFC4733)组成RFC2833包发给对端。对端收到RFC2833包后去解析就知道是哪个键值了。这通常被叫做out-of-band方法。RFC2833包也是用RTP做承载,不过它的payload type是动态的(96~127之间一个值),payload共4个字节(32个比特),具体如下:

                                                           

其中bit0-7(共8位)表示键值,bit8表示DTMF按键结束,bit9目前保留不用,bit10-15(共6位)表示按键信号的level(dBm表示),bit16-31(共16位)表示按键持续的时间(以采样值为单位)。一个DTMF键会生成多个RFC2833包,对同一个键值而言,这些包的sequence number会每次加1,但是timestamp不变,duration会持续增加,以8k采样率20ms为一包为例,第一个RFC2833包duration为160,第二个RFC2833包duration为320,依次向上加,直到END包(bit8置1)结束。END包会发3次(发3 次主要是为了防丢包),每个END包sequence number会加1,但是duration保持不变。

3,在本端做DTMF detection得到键值,然后通过SIP信令的INFO带给对端,让对端知道是哪个键值。

这三种方法中,具体用那种方法要看双方设备的支持程度,在SDP中有个协商的过程,最终选用双方都支持的一种方法(如果双方都支持多种方法,还有一个优先级来控制选择哪种方法)来传送DTMF值。


http://www.ppmy.cn/news/790951.html

相关文章

Freeswitch 180与183

SIP消息当中的180和183是通知invite消息的发起方,告知对方已振铃或者说你可以听振铃音了。 早期媒体:简单的可以理解为回铃音或者彩铃,但为了与真正的媒体相区分,所以称回铃音或者彩铃为早期媒体。 一般180不带SDP(仅限…

【FreeSwitch开发实践】外呼线路电话收不到回铃音问题的解决

✨ 博客主页:小小马车夫的主页 ✨ 所属专栏:FreeSwitch开发实践 ✨ 专栏介绍:主要介绍博主在实际项目中使用FreeSwitch开发外呼类项目的一些经验心得,主要涉及FreeSwitch的基本安装编译、基本配置、ESL、WSS、录音、自定义模块、m…

ESFramework的最简化应用案例(控制台服务端和客户端,支持文本,振铃提醒,文件传输)

问:ESFramework是什么? 答:.NET通信框架. 问:能做什么? 答:分布式通信的系统如:即时通讯,多人在线游戏、在线网页游戏、文件传送、数据采集、分布式OA系统、远程教育系统等。 问:平台要求? 答:直接构建在.NET Framework 2.0上. 问:具体怎么写? 答:引擎初始化…

40. 同时在线最多的人数

文章目录 题目需求思路一实现一题目来源 题目需求 根据用户登录明细表(user_login_detail),求出平台同时在线最多的人数。 期望结果如下(截取部分): cn7 需要用到的表: 用户登录明细表&…

如何使用python删除文件或文件夹,根据提供的文件夹或文件路径列表删除对应的文件或文件夹

先上代码: def remove_file_or_dir(base_path, file_or_dir_names, log_tagcommon):print(f"{log_tag} Start deleting files: {file_or_dir_names} - {base_path}")for name in file_or_dir_names:full_file_path f"{base_path}/{name}"try:…

x264的一些编码参数

原文地址:http://blog.csdn.net/vblittleboy/article/details/8982857 x264是一个 H.264/MPEG4 AVC 编码器,本指南将指导新手如何创建高质量的H.264视频。 对于普通用户通常有两种码率控制模式:crf(Constant Rate Factor)和Two p…

Hbuiler,HbuilderX ios 使用个推配置

1、能够完成推送的条件 ①、ios应用必须有开发证书,或者发布证书,能够打包成ipa包(ios打包及证书申请查看:https://blog.csdn.net/u011118071/article/details/104937328),运行在真实苹果手机上&#xff0c…

Mac 配置Nginx域名转发

配置环境 MacOS Monterey 12.0.1提前运行端口88的Web项目 1.修改hosts文件 打开host文件 sudo vi /etc/hosts XaysdeMacBook-Pro:~ xay$ sudo vi /etc/hosts 添加域名映射 ## # Host Database # # localhost is used to configure the loopback interface # when the sy…