音视频整体解码流程和同步流程

news/2024/11/17 11:02:14/

目录

    • 1. 整体解码流程
      • 1. 初始化 FFmpeg
      • 2. 打开媒体文件
      • 3. 查找解码器
      • 4. 打开解码器
      • 5. 读取和解码数据
      • 6. 处理解码后的帧
      • 7. 释放资源
    • 2. 音视频同步整体流程
      • 1. 解复用媒体流
      • 2. 解码
      • 3. 以音频为时钟源进行音视频同步的策略
      • 4. 缓冲区设计

现在先说大体流程,不分析代码

1. 整体解码流程

在这里插入图片描述

1. 初始化 FFmpeg

调用 av_register_all() 和 avformat_network_init() 来初始化 FFmpeg 库。

2. 打开媒体文件

使用 avformat_open_input() 打开媒体文件,并读取媒体流信息。
使用 avformat_find_stream_info() 获取流信息,包括音频流和视频流的数量、类型及相关参数。

3. 查找解码器

遍历找到的媒体流,使用 avcodec_find_decoder() 根据流的编码格式查找合适的解码器(如 H.264、AAC 等)。
调用 avcodec_alloc_context3() 分配解码上下文,并设置相应的参数(如采样率、通道数、宽高等)。

4. 打开解码器

使用 avcodec_open2() 打开解码器,并将解码上下文与解码器关联。

5. 读取和解码数据

使用 av_read_frame() 循环读取媒体数据包。
根据读取的数据包类型(音频或视频)将数据传递给相应的解码器。
调用 avcodec_send_packet() 将数据包发送给解码器。
使用 avcodec_receive_frame() 从解码器接收解码后的帧。

6. 处理解码后的帧

根据解码后的帧的类型(音频帧或视频帧),进行后续处理:
音频帧:可以将音频帧写入音频输出设备进行播放,或者进行进一步的处理(如音频效果、混音等)。
视频帧:可以将视频帧渲染到图形窗口,或进行后续处理(如转码、特效等)。

7. 释放资源

在完成解码后,调用 avcodec_free_context() 和 avformat_close_input() 释放分配的解码器上下文和媒体文件资源。

2. 音视频同步整体流程

1. 解复用媒体流

使用解复用器解码媒体流,分离出来的音频数据包和是视频数据包,分别存在各自的包队列中。
并且解复用时给每个数据包设置 DTS(解码时间戳)
DTS是自己算的,通常情况下,你会基于上一个包的 DTS 和当前包的持续时间来计算当前包的 DTS。

2. 解码

使用av_read_frame() 循环读取数据包,根据DTS时间戳的顺序,分别解码读出来的音频包和视频包。
得到音频帧数据和视频帧数据,放入相应的队列中。
使用ffmpeg解码后,每个帧会附带其 PTS。

怎么让音频和视频的PTS对应?
通过时间基转换,让两者可比较。

PTS:
视频帧的 PTS
帧率:视频的帧率(fps)决定了每秒显示多少帧。如果视频以 30 fps 编码,则每帧的显示时间为 1/30 秒。
音频帧的 PTS
采样率:音频的采样率决定了每秒钟采集多少样本。例如,44100 Hz 表示每秒 44100 个样本。

3. 以音频为时钟源进行音视频同步的策略

缓冲与延迟:在实际应用中,可能需要引入一些缓冲机制,以便平滑处理音视频流。这可以通过 FIFO 队列等方式实现。

动态调整:根据网络条件或系统负载,可能需要动态调整音频和视频的同步策略,以保证平滑播放。

错误处理:也要注意对异常情况的处理,比如丢失帧、网络延迟等,以确保程序的健壮性。

4. 缓冲区设计

1.1 音频和视频缓冲区

  • 音频缓冲区:用于存储从音频流读取的数据,确保音频数据在播放时不会因为延迟而中断。通常,音频缓冲区的大小会根据音频的比特率、网络条件和系统性能进行调整。

  • 视频缓冲区:用于存储从视频流读取的帧,以便在合适的时间进行显示。视频缓冲区的大小可以设定为能够覆盖一定数量的帧,以应对音频流的变化。

  1. 动态缓冲管理

2.1 自适应调整

  • 根据实时监测的音视频同步状态(例如,音频播放时间与视频显示时间的差距),动态调整音频和视频缓冲区的大小。例如,当检测到音频延迟时,可以增加视频缓冲区的容量,以保证视频在输出时不会滞后于音频。

2.2 阈值设置

  • 设置阈值来判断何时需要调整缓冲区。例如,如果音频和视频之间的时间差超出设定范围,就进行相应的缓冲调整。
  1. 音频作为时钟源

3.1 时间戳管理

  • 每个音频样本或块都有一个对应的时间戳,系统使用这些时间戳来确定音频的播放进度,并据此决定视频的播放时机。

3.2 视频帧的调度

  • 当从音频缓冲区取出数据进行播放时,系统会检查当前的音频时间戳,根据这一时间戳决定是否从视频缓冲区取出下一帧。如果音频播放的时间戳大于等于视频的时间戳,则播放下一帧视频。
  1. 处理延迟与不同步

4.1 监测与反馈

  • 实时监测音频与视频的同步状态,检测是否存在延迟。一旦发现不同步,可以通过丢弃多余的视频帧或插入静音来进行调整。

4.2 错误修正策略

  • 如果检测到音频过早或视频滞后,可以选择:
    • 增加视频缓冲区的大小。
    • 丢弃已缓存的视频帧,或在必要时添加黑帧或静态图像。

http://www.ppmy.cn/news/1531078.html

相关文章

useImperativeHandle, forwardRef ,使方法和属性应暴露给父组件

useImperativeHandle 是 React 中的一个 Hook,用于自定义组件的实例值。它通常与 forwardRef 一起使用,允许你在父组件中通过引用(ref)访问子组件的特定实例方法或属性。以下是对 useImperativeHandle 的详细解析。 1、语法 impo…

Centos 7.9 Kubeadm安装k8s1.20.11

一、环境 主机用途192.168.76.140k8s-master1192.168.76.141k8s-node1 二、设置yum源 由于系统已经关闭,可以用centos9尝试 cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak vi /etc/yum.repos.d/CentOS-Base.repo# 使用阿里云的y…

ArrayList源码实现(一)

ArrayList源码实现(一) 1. ArrayList的大小是如何自动增加的? 初始化 在构造函数中,可以设定列表的初始值大小,如果没有的话默认使用,提供的静态数据 public ArrayList(int initialCapacity) {if (initi…

华为HarmonyOS灵活高效的消息推送服务(Push Kit) -- 8 发送通知扩展消息

场景介绍 当用户终端收到您发送的通知扩展消息时: 若您的应用进程不在前台,Push Kit会将消息内容传递给通知扩展进程,您可以在该进程中自行完成业务处理(例如:语音播报等)后,返回自定义消息内…

精密制造的革新:光谱共焦传感器与工业视觉相机的融合

在现代精密制造领域,对微小尺寸、高精度产品的检测需求日益迫切。光谱共焦传感器凭借其非接触、高精度测量特性脱颖而出,而工业视觉相机则以其高分辨率、实时成像能力著称。两者的融合,不仅解决了传统检测方式在微米级别测量上的局限&#xf…

TMR技术的发展及其应用技术的介绍

目录 概述 1 TMR传感器介绍 1.1 原理介绍 1.2 技术演进历史 2 TMR技术的应用 2.1 电阻特性 2.2 技术比较 2.3 磁道特性 3 多维科技的芯片(TMR1202) 3.1 芯片介绍 3.2 特性 ​3.3 典型应用 参考文献 概述 本文主要介绍TMR技术的发展及其技术…

Unity网络开发记录(二):采用多线程处理服务端对客户端的连接和信息处理

在主线程处理对所有客户端的连接以及消息处理,是非常消耗时间的,所以对于监听客户端的连接,以及信息的接收,都额外开线程去处理,减轻主线程的压力 using System.Globalization; using System.Net; using System.Net.S…

速盾:高防cdn跟其他防御产品有什么不同?

高防CDN与其他防御产品相比,有以下几个不同之处: 抗DDoS能力更强:高防CDN具备强大的抗DDoS攻击能力,能够有效阻断各种类型的DDoS攻击,包括SYN Flood、UDP Flood、HTTP Flood等。它利用分布式节点、智能算法以及大规模带…