Linux编程:DMA增加UDP 数据传输吞吐量并降低延迟

ops/2025/1/3 2:34:49/

文章目录

    • 0. 引言
    • 1. 原理介绍
      • 1.1 DMA 与中断的协同机制
      • 1.2. DMA优化UDP 数据包发送
    • 2. DMA 配置优化

0. 引言

UDP 网络传输常面临高 CPU 占用、传输延迟和丢包等挑战。本文将介绍 DMA 如何优化 UDP 数据包的发送,以提高吞吐量、减少延迟并降低 CPU 占用。

阅读本文时请同步阅读: Linux 编程:高实时性场景下的内核线程调度与网络包发送优化

1. 原理介绍

DMA__8">1.1 DMA 与中断的协同机制

DMA中断 协同工作能够显著提高数据传输效率。

  • 中断机制:通过中断通知 CPU 事件发生,避免轮询带来的资源浪费,并及时响应实时数据。
  • DMA 技术:如果没有 DMA,CPU 将会直接参与每次数据的传输(例如,使用 memcpy());而DMA 允许外设与内存直接传输数据,减少 CPU 参与,避免上下文切换,提高传输效率。
  • DMA 多通道DMA 控制器通常具有多个 DMA 通道,针对不同的外设和数据传输需求,可以为不同的设备配置不同的 DMA 通道。例如,数据传感器可以通过 DMA 将数据直接写入到特定的内存缓冲区,这样 CPU 只需处理数据,而无需干预数据传输。

DMAUDP__15">1.2. DMA优化UDP 数据包发送

DMA可以优化高频数据流的场景UDP 数据传输,原因如下:

  • 减少 CPU 负担:传统 UDP 传输中,CPU 需要处理数据复制和协议栈操作,而 DMA 允许 NIC(网络接口卡) 直接从内存读取数据并打包为 UDP 数据包发送,减少CPU 干预。
  • 大数据包优化:在带宽需求较高的场景中(如在视频流、激光雷达数据等),DMA 避免了内存拷贝。
  • 缓存一致性问题DMA 直接传输数据,DMA 目标内存区域与其他内存区域隔离,可避免数据竞争或缓存污染。在高性能应用中,可以使用 缓存一致性非缓存区(nocache memory) 来确保 DMA 写入的内存区域与 CPU 的其他操作不冲突。

下面描述 DMA网络驱动的关系

supports
1
1..*
configures
1
1..*
accesses
1
1
configures
1
1
manages
1
1
NIC-8" transform="translate(68.41666793823242, 361.5)">
«hardware»
NIC
+sendData()
+receiveData()
+supportDMA()
«software»
NetworkDriver
+initializeDMA()
+manageBuffer()
+configureNIC()
DMA-10" transform="translate(134.60677337646484, 607.5)">
«hardware»
DMA
+transferData()
+accessMemory()
«hardware»
Memory
+storeData()
  • NIC(网络接口卡):网络接口卡是支持 DMA 的硬件,能够直接将数据从内存传输到网络接口。
  • NetworkDriver(网络驱动程序)网络驱动程序负责初始化和配置 DMA、管理网络接口卡的 DMA 缓冲区和传输设置。驱动程序负责处理与 DMA 相关的操作,如配置 DMA 缓冲区、启动 DMA 传输等。
  • DMA(直接内存访问)DMA 控制器在硬件层面负责数据传输,它能够在内存和外设(例如 NIC)之间直接传输数据。DMA 不需要 CPU 参与,从而降低了 CPU 的负担,尤其在大规模数据传输时。
  • Memory(内存):内存是数据存储的地方,网络驱动程序会将要发送的数据存储在内存中,DMA 会从内存中读取这些数据并传输到网络接口卡。

DMA__67">2. DMA 配置优化

为了最大化 DMA 在 UDP 数据包发送中的效果,需要在多个层面进行配置和调优。

  • DMA 缓冲区配置:确保 DMA 缓冲区足够大,以便能够高效地处理大块数据传输;过小的缓冲区可能导致频繁的 DMA 传输,增加延迟和 CPU 占用。在 BSP 配置 中(或者网络驱动程序中),可以调整 DMA 缓冲区的大小,以提高每次传输的数据量。
    然而,过大的 DMA 缓冲区可能导致单次数据传输时间更长,从而引入较大的延迟。

  • DMA 内存对齐:确保 DMA 缓冲区的内存对齐以优化数据传输速度。大多数 DMA 控制器要求数据缓冲区按照特定的内存边界对齐,通常是 4 字节或 8 字节对齐。内存对齐不足会导致额外的延迟。

  • 启用零拷贝:在 网络驱动程序 中,启用 零拷贝 支持,以便 NIC 直接将数据从用户空间传输至网络接口,减少内存复制开销;双缓冲技术可以减少等待时间,提高吞吐量

  • 减少中断数量:传统的做法是每次完成 DMA 传输后触发一个中断。如果每个传输都产生中断,会导致大量的上下文切换和 CPU 占用。通过配置 中断合并,可以将多个 DMA 完成的中断合并为一个中断,从而减少中断的开销。
    在 BSP 或内核配置 中,可以配置 中断合并 或 中断调度,以减少不必要的中断频率。

  • 大帧传输(Jumbo Frames):许多 NIC 支持 Jumbo Frames(超大帧)。启用这一特性后,网络接口卡可以一次发送更大的数据包,减少每个数据包的头部开销,从而提升网络吞吐量


http://www.ppmy.cn/ops/131653.html

相关文章

细说STM32单片机USART中断收发RTC实时时间并改善其鲁棒性的方法

目录 一、工程目的 1、 目标 2、通讯协议及应对错误指令的处理目标 二、工程设置 三、程序改进 四、下载与调试 1、合规的指令 2、 proBuffer[0]不是# 3、proBuffer[4]不是; 4、指令长度小于5 5、指令长度大于5 6、proBuffer[2]或proBuffer[3]不是数字 7、;位于p…

Qt的程序如何打包详细教学

生成Release版的程序 在打包Qt程序时,我们需要将发布程序需要切换为Release版本(Debug为调试版本),编译器会对生成的Release版可执行程序进行优化,使生成的可执行程序会更小。 debug版本 debug版本是一种开发过程中的…

AJ-Report:一款开源且非常强大的数据可视化大屏和报表工具

嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和工作学习方法 AJ-Report是一个基于Java的开源报表工具,它集成了ECharts、Ant Design Vue等前端技术,致力于为企业提供一站式的数据可视化解决方案…

Docker打包自己项目推到Docker hub仓库(windows10)

一、启用Hyper-V和容器特性 1.应用和功能 2.点击程序和功能 3.启用或关闭Windows功能 4.开启Hyper-V 和 容器特性 记得重启生效!!! 二、安装WSL2:写文章-CSDN创作中心https://mp.csdn.net/mp_blog/creation/editor/143057041 三…

Unity 写转盘

简单思路就是&#xff0c;每个圆形在前一个扇形的基础上&#xff0c;进行一个旋转&#xff0c;然后设置自己的fillCount float allWeight 0;var angle 360f / element.Count;float angle 0;int index 0;foreach (var item in element){var obj GameObject.Instantiate<…

<项目代码>YOLOv8 煤矸石识别<目标检测>

YOLOv8是一种单阶段&#xff08;one-stage&#xff09;检测算法&#xff0c;它将目标检测问题转化为一个回归问题&#xff0c;能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法&#xff08;如Faster R-CNN&#xff09;&#xff0c;YOLOv8具有更高的…

【人工智能】Transformers之Pipeline(二十二):零样本文本分类(zero-shot-classification)

​​​​​​​ 目录 一、引言 二、零样本文本分类&#xff08;zero-shot-classification&#xff09; 2.1 概述 2.2 Facebook/bart-large-mnli 2.3 pipeline参数 2.3.1 pipeline对象实例化参数 2.3.2 pipeline对象使用参数 2.3.3 pipeline返回参数 ​​​​​​​​…

002-Kotlin界面开发之Kotlin旋风之旅

Kotlin旋风之旅 Compose Desktop中哪些Kotlin知识是必须的&#xff1f; 在学习Compose Desktop中&#xff0c;以下Kotlin知识是必须的&#xff1a; 基础语法&#xff1a;包括变量声明、数据类型、条件语句、循环等。面向对象编程&#xff1a;类与对象、继承、接口、抽象类等。…