伪共享问题如何解决?

devtools/2024/10/19 22:28:37/

伪共享问题是多核处理器环境下常见的性能瓶颈之一,特别是在多线程编程中。想要解决它,就必须先了解缓存行的概念。

缓存

缓存行是指在 CPU 缓存中最小的数据单位,通常包含一定数量的字节(例如,常见的缓存行大小为 64 字节)。当处理器从主内存读取数据时,它不仅读取请求的字节,还会读取周围的数据形成一个缓存行,以减少未来的内存访问次数。这样做的好处是可以减少内存访问的频率,提高缓存命中率,从而提升性能。

缓存行对齐

缓存行对齐是指将数据的存储位置调整为缓存行大小的整数倍,以便CPU可以一次加载整个数据。

为什么需要缓存行对齐?

当CPU访问主存中的数据时,它通常会加载整个缓存行到缓存中。如果数据没有正确地对齐到缓存行边界,那么CPU可能需要多次访问主存以获取完整的数据。这被称为缓存行分裂(Cache Line Splitting),它会导致额外的性能开销。通过缓存行对齐,我们可以减少缓存行分裂的发生,从而提高程序的性能。

如何在JVM中应用缓存行对齐?

在JVM中,我们可以通过调整对象的布局来实现缓存行对齐。以下是一些建议:

  • 避免在对象内部跨越缓存行边界的访问:如果对象的字段跨越了缓存行边界,那么访问这些字段可能会导致缓存行分裂。为了避免这种情况,我们应该确保对象的所有字段都位于同一个缓存行内。
  • 使用填充(Padding):我们可以使用特定类型的字段(如long或double)作为填充,以确保对象的大小是缓存行大小的整数倍。这样,无论对象如何排列,其边界都将与缓存行边界对齐。
    示例见结尾。
  • 考虑对象的访问模式:当多个对象被频繁地一起访问时,我们应该考虑将这些对象排列在一起,以便它们可以一次性加载到缓存中。
  • 使用太阳花(Sunflower)策略:这是一种对象布局策略,通过将对象分组到不同的“太阳花”中,可以确保在同一时间访问的对象位于不同的缓存行中,从而减少缓存行争用。
  • 使用数组:将多个变量存储在一个数组中,每个变量占据数组中的一个元素,这样它们自然分布在不同的缓存行中。
    java">class ThreadSafeData {volatile long[] variables = new long[2]; // 假设缓存行大小为 64 字节,每个 long 占 8 字节// 线程 1 访问 variables[0]// 线程 2 访问 variables[1]
    }
    

使用填充技术的示例:

java">package org.hbin;import java.util.ArrayList;
import java.util.List;/*** @author Haley* @version 1.0* 2024/8/21*/
public class CacheLineWithPadding {private static long count = 10000_0000L;public static class Data {// 使用7个long类型填充,占用7*8=56字节public volatile long p1, p2, p3, p4, p5, p6, p7;public volatile long value; // 占用8字节
//        public volatile long p8, p9, p10, p11, p12, p13, p14;}public static Data[] array = {new Data(), new Data()};public static long test() {Thread t1 = new Thread(() -> {for (long i = 0; i < count; i++) {array[0].value = i;}});Thread t2 = new Thread(() -> {for (long i = 0; i < count; i++) {array[1].value = i;}});long start = System.currentTimeMillis();try {t1.start();t2.start();t1.join();t2.join();} catch (Exception e) {e.printStackTrace();}return System.currentTimeMillis() - start;}public static void main(String[] args) {List<Long> list = new ArrayList<>();for (int i = 0; i < 10; i++) {list.add(test());}System.out.println(list);System.out.println(list.stream().mapToLong(Long::longValue).average().orElse(0.0));}
}

运行上面的代码,观察输出时间;注释上述代码16行public volatile long p1, p2, p3, p4, p5, p6, p7;,两次运行代码,你可以看到运行时间明显增加了。正是因为有这一行中声明的7个long类型的数据填充,使得缓存更加高效。

放开18行注释掉的代码public volatile long p8, p9, p10, p11, p12, p13, p14;,运行程序并将结果和当前进行对比,性能应该也会略有提升的哟!你知道原因么?

jdk8的解决方式

jdk1.8中,官方已经提供了对伪共享的解决办法,那就是sun.misc.Contended注解,有了这个注解解决伪共享就变得简单多了。

java">@sun.misc.Contended
public static class Data {public volatile long value;
}

默认情况下此注解是无效的,需要在JVM启动时开启这个注解。
设置方式:-XX:-RestrictContended

伪共享问题

伪共享(False Sharing)是指多线程程序中,多个线程访问不同变量,但这些变量位于同一个缓存行中。当一个线程更新这个缓存行中的一个变量时,会导致整个缓存行被刷新到主内存中,从而可能导致其他线程读取该缓存行时需要从主内存中重新加载,造成不必要的性能损失。
Disruptor项目的经典示例图演示了伪共享的问题,如下:
在这里插入图片描述
上图中,一个运行在处理器 core1上的线程想要更新变量 X 的值,同时另外一个运行在处理器 core2 上的线程想要更新变量 Y 的值。但是,这两个频繁改动的变量都处于同一条缓存行。
根据MESI协议(不清楚的小伙伴请自行参考我写的另一篇文章,详细介绍了MESI协议),两个线程就会轮番发送 RFO 消息,占得此缓存行的拥有权。当 core1 取得了拥有权开始更新 X,则 core2 对应的缓存行需要设为 I 状态。当 core2 取得了拥有权开始更新 Y,则 core1 对应的缓存行需要设为 I 状态。轮番夺取拥有权不但带来大量的 RFO 消息,而且如果某个线程需要读此行数据时,L1 和 L2 缓存上都是失效数据,只有 L3 缓存上是同步好的数据。要知道,读 L3 的数据非常影响性能。更坏的情况是跨槽读取,L3 都要 miss,只能从内存上加载。
表面上 X 和 Y 都是被独立线程操作的,而且两操作之间也没有任何关系。只不过它们共享了一个缓存行,但所有竞争冲突都是来源于共享。

伪共享的解决方案

在实际的生产开发过程中,我们一定要通过缓存行填充去解决掉潜在的伪共享问题吗?
其实并不一定。
首先伪共享是很隐蔽的,我们暂时无法从系统层面上通过工具来探测伪共享事件。其次,不同类型的计算机具有不同的微架构(如 32 位系统和 64 位系统的 java 对象所占自己数就不一样),如果涉及到跨平台的应用,那就更难以把握了,一个确切的填充方案只适用于一个特定的操作系统。
其次,缓存的资源是有限的,如果填充会浪费珍贵的 cache 资源,并不适合大范围应用。最后,目前主流的 Intel 微架构 CPU 的 L1 缓存,已能够达到 80% 以上的命中率。


http://www.ppmy.cn/devtools/100382.html

相关文章

linux发邮件的操作流程和注意事项有哪些?

linux发邮件服务配置方法&#xff1f;linux怎么用命令发送邮件&#xff1f; 在Linux系统中&#xff0c;邮件发送是一个常见且重要的功能&#xff0c;无论是用于系统监控通知还是日常通信。AokSend将详细介绍在Linux环境下如何进行邮件发送&#xff0c;并提供一些关键的注意事项…

搭建自己的金融数据源和量化分析平台(七):定时更新上市公司所属行业门类及大类

0x00 前言 由于此前从深交所下载的股票信息中只有行业门类信息&#xff0c;没有行业大类信息&#xff0c;导致后续解析三大报表和量化选股的时候无法进行&#xff1a; 可以看到深交所的股票是没有大类信息的。 再看看上交所的保险股&#xff1a; 因此需要将深交所股票的所属…

位数问题c++

题目描述 在所有的N位数中&#xff0c;有多少个数中有偶数个数字3&#xff0c;由于结果可能很大&#xff0c;你只需要输出这个答案对12345取余的值。 输入 读入一个数N(N≤1000) 输出 输出有多少个数中有偶数个数字3。 样例输入 2 样例输出 73样例解释&#xff1a; 1…

Spring Boot与桥接模式:构建灵活的产品分类体系

在当今的软件开发领域&#xff0c;特别是在构建大型应用时&#xff0c;模块化和灵活性成为了至关重要的设计原则。Spring Boot&#xff0c;以其便捷的开发体验和强大的生态支持&#xff0c;成为许多开发者首选的Java开发框架之一。本文将探讨如何利用Spring Boot结合桥接模式来…

上半年大模型遍地开花,大模型发展中有哪些经验和教训?

前言 过去一年里&#xff0c;大模型遍地开花&#xff0c;我自己也在做大模型训练相关的工作&#xff0c;踩过了很多很多坑&#xff0c;这里分享一些教训&#xff1a;用成熟的分布式训练框架&#xff1a; 多用 DeepSpeed&#xff0c;少用 Pytorch 原生的 torchrun。在节点数量较…

【Ansible】Ansible playbook

Ansible playbook简介 Ansible playbook是一种用于描述和自动化IT基础设施配置和管理的工具。它使用YAML格式来定义一系列任务和配置项&#xff0c;并利用Ansible的执行引擎自动执行这些任务。 Playbook包含一个或多个play&#xff0c;每个play定义了一组任务&#xff0c;这些…

NLP -->定义、应用、与职业前景解析

1. 自然语言处理&#xff08;NLP&#xff09;的定义与误区 定义: 自然语言处理主要集中于文本的处理&#xff0c;旨在使计算机能够理解和生成自然语言文本。常见误区: 初学者容易将自然语言处理与语音识别混淆。 语音识别: 将语音转成文字&#xff0c;这不属于自然语言处理范畴…

使用Python请求http/https时如何设置失败重试次数例子解析

代码示例&#xff1a; import requests from requests.adapters import HTTPAdapter from requests.packages.urllib3.util.retry import Retrydef requests_with_retries_example():# 创建一个session对象&#xff0c;该对象将被配置为在失败时自动重试session requests.Ses…