DL4J实战之四:经典卷积实例(GPU版本)

news/2024/11/29 3:44:15/

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos

本篇概览

  • 作为《DL4J实战》的第四篇,今天咱们不写代码,而是为今后的实战做些准备:在DL4J框架下用GPU加速深度学习的训练过程;
  • 如果您电脑上有NVIDIA显卡,并且成功的安装了CUDA,那么就随本文一起实际操作吧,全文由以下内容构成:
  1. 软硬件环境参考信息
  2. DL4J的依赖库和版本
  3. 使用GPU的具体操作步骤
  4. GPU训练和CPU训练对比

软硬件环境参考信息

  • 众所周知,欣宸是个穷人,因此带NVIDIA显卡的电脑就是一台破旧的联想笔记本,相关信息如下:
  1. 操作系统:Ubuntu16桌面版
  2. 显卡型号:GTX950M
  3. CUDA:9.2
  4. CPU:i5-6300HQ
  5. 内存:32G DDR4
  6. 硬盘:NvMe 1T
  • 实际证明,以上配置可以顺利运行《DL4J实战之三:经典卷积实例(LeNet-5)》一文中的实例,并且可以通过GPU加速训练(GPU和CPU的对比数据会在后面给出)
  • 在Ubuntu16环境安装NVIDIA驱动和CUDA9.2的过程,可以参考文章《纯净Ubuntu16安装CUDA(9.1)和cuDNN》,这里面安装的CUDA版本是9.1,请自行改为9.2版本

DL4J的依赖库和版本

  • 首先要强调的是:不要使用CUDA 11.2版本(这是执行nvidia-smi时输出的版本),截止写本文时,使用CUDA 11.2及其依赖库,在启动时会有ClassNotFound异常
  • CUDA 10.X版本我这里也没有试过,因此不做评论
  • CUDA 9.1和9.2版本都尝试过,可以正常使用
  • 为什么不用9.1呢?咱们先去中央仓库看看DL4J核心库的版本情况,如下图,最新的版本已经到了1.0.0-M1
    在这里插入图片描述
  • 再看看CUDA 9.1对应的nd4j库的版本情况,如下图红框,最新的是2018年的1.0.0-beta,与核心库差距太大了:
    在这里插入图片描述
  • 好了,再来看看CUDA 9.2对应的nd4j库的版本情况,如下图红框,最新的是1.0.0-beta6,与核心库差两个版本,因此,建议使用CUDA 9.2:
    在这里插入图片描述

使用GPU的具体操作步骤

  • 使用CPU还是GPU,具体操作步骤非常简单:切换不同的依赖库即可,下面分别介绍
  • 如果您用CPU做训练,则依赖库和版本如下:
<!--核心库,不论是CPU还是GPU都要用到-->
<dependency><groupId>org.deeplearning4j</groupId><artifactId>deeplearning4j-core</artifactId><version>1.0.0-beta6</version>
</dependency>
<!--CPU要用到-->
<dependency><groupId>org.nd4j</groupId><artifactId>nd4j-native</artifactId><version>1.0.0-beta6</version>
</dependency>

如果您用GPU做训练,且CUDA版本是9.2,则依赖库和版本如下:

<!--核心库,不论是CPU还是GPU都要用到-->
<dependency><groupId>org.deeplearning4j</groupId><artifactId>deeplearning4j-core</artifactId><version>1.0.0-beta6</version>
</dependency>
<!--GPU要用到-->
<dependency><groupId>org.deeplearning4j</groupId><artifactId>deeplearning4j-cuda-9.2</artifactId><version>1.0.0-beta6</version>
</dependency>
<!--GPU要用到-->
<dependency><groupId>org.nd4j</groupId><artifactId>nd4j-cuda-9.2-platform</artifactId><version>1.0.0-beta6</version>
</dependency>
  • java代码就不在这里贴出了,用的是《DL4J实战之三:经典卷积实例(LeNet-5)》中的代码,不做任何改变

内存设置

  • 使用IDEA运行代码的时候,可以按照当前硬件情况将内存适当调大,步骤如下图:
    在这里插入图片描述
  • 请酌情调整,我这里设置为8G
    在这里插入图片描述
  • 设置完毕,接下来在同一电脑上分别用CPU和GPU执行训练和测试,通过对比检查GPU加速效果

CPU版本

  • 在这台破旧的笔记本电脑上,用CPU做训练是非常吃力的,如下图,几乎被榨干:
    在这里插入图片描述
  • 控制台输出如下,耗时158秒,真是个漫长的过程:
=========================Confusion Matrix=========================0    1    2    3    4    5    6    7    8    9
---------------------------------------------------973    1    0    0    0    0    2    2    1    1 | 0 = 00 1132    0    2    0    0    1    0    0    0 | 1 = 11    5 1018    1    1    0    0    4    2    0 | 2 = 20    0    2 1003    0    3    0    1    1    0 | 3 = 30    0    1    0  975    0    2    0    0    4 | 4 = 42    0    0    6    0  880    2    1    1    0 | 5 = 56    1    0    0    3    4  944    0    0    0 | 6 = 60    3    6    1    0    0    0 1012    2    4 | 7 = 73    0    1    1    0    1    1    2  964    1 | 8 = 80    0    0    2    6    2    0    2    0  997 | 9 = 9Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times
==================================================================
13:24:31.616 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 完成训练和测试,耗时[158739]毫秒
13:24:32.116 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的MINIST模型保存在[/home/will/temp/202106/26/minist-model.zip]

GPU版本

  • 接下来按照前面给出的依赖关系修改pom.xml文件,即可启用GPU,运行过程中,控制台输出以下内容表示已启用GPU:
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Backend used: [CUDA]; OS: [Linux]
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Cores: [4]; Memory: [7.7GB];
13:27:08.277 [main] INFO org.nd4j.linalg.api.ops.executioner.DefaultOpExecutioner - Blas vendor: [CUBLAS]
13:27:08.300 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - ND4J CUDA build version: 9.2.148
13:27:08.301 [main] INFO org.nd4j.linalg.jcublas.JCublasBackend - CUDA device 0: [GeForce GTX 950M]; cc: [5.0]; Total memory: [4242604032]
  • 这次的运行过程明显流畅了许多,CPU使用率下降了不少:
    在这里插入图片描述
  • 控制台输出如下,耗时21秒,可见GPU加速效果还是很明显的:
=========================Confusion Matrix=========================0    1    2    3    4    5    6    7    8    9
---------------------------------------------------973    1    0    0    0    0    2    2    1    1 | 0 = 00 1129    0    2    0    0    2    2    0    0 | 1 = 11    3 1021    0    1    0    0    4    2    0 | 2 = 20    0    1 1003    0    3    0    1    2    0 | 3 = 30    0    1    0  973    0    3    0    0    5 | 4 = 41    0    0    6    0  882    2    1    0    0 | 5 = 56    1    0    0    2    5  944    0    0    0 | 6 = 60    2    4    1    0    0    0 1016    2    3 | 7 = 71    0    2    1    0    1    0    2  964    3 | 8 = 80    0    0    2    6    3    0    2    1  995 | 9 = 9Confusion matrix format: Actual (rowClass) predicted as (columnClass) N times
==================================================================
13:27:30.722 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 完成训练和测试,耗时[21441]毫秒
13:27:31.323 [main] INFO com.bolingcavalry.convolution.LeNetMNISTReLu - 最新的MINIST模型保存在[/home/will/temp/202106/26/minist-model.zip]Process finished with exit code 0
  • 至此,DL4J框架下的GPU加速实战就完成了,如果您手里有NVIDIA显卡,可以尝试一下,希望本文能给您一些参考

你不孤单,欣宸原创一路相伴

  1. Java系列
  2. Spring系列
  3. Docker系列
  4. kubernetes系列
  5. 数据库+中间件系列
  6. DevOps系列

http://www.ppmy.cn/news/241501.html

相关文章

确定你的电脑是否支持安装64位操作系统

选择的方法理论指导&#xff1a; 1、首先确认CPU为64位cpu&#xff0c;intel cpu应支持EM64T指令集&#xff0c;amd cpu应支持x86-64指令集&#xff0c;确定方法见以下方法一~方法三&#xff1b; 2、确认计算机物理内存的容量&#xff0c;如果是4G及其以下内存&#xff0c;建…

6300hq 编程Java,ubuntu keepalived 笔记

环境&#xff1a; master&#xff1a;Ubuntu 12.04(192.168.31.186) backup: Ubuntu 12.04(192.168.31.110) VIP: 192.168.31.100 keepalived的原理可以这样简单理解: keepalived安装在两台物理服务器上&#xff0c;并相互监控对方是否在正常运行。 当master正常的时候:master上…

22、js - 处理异常

<body><!-- <button>我是按钮</button> --> </body></html><script>// throw// throw 必须要传 a 和 b;// throw new Error(必须要传 a 和 b);function fn(a, b) {if (!a && !b) {// throw 必须要传 a 和 b;throw new Error…

嵌入式学习:开源与闭源

开源指的是那些源代码或源设计可以被大众使用、修改发行的软件或设计体&#xff0c;闭源就是不开放源代码。 Linux 无疑是开源软件里最最成功的一个&#xff0c;不管是从它目前的生态建设角度&#xff0c;还是从业界评价来看&#xff0c;包括今天云计算的基础也都倚赖Linux的贡…

(栈和队列) 150. 逆波兰表达式求值 ——【Leetcode每日一题】

❓150. 逆波兰表达式求值 难度&#xff1a;中等 给你一个字符串数组 tokens &#xff0c;表示一个根据 逆波兰表示法 表示的算术表达式。 请你计算该表达式。返回一个表示表达式值的整数。 注意&#xff1a; 有效的算符为 ‘’、‘-’、‘*’ 和 ‘/’ 。每个操作数&#…

大一到大三一定要做完!

无论你现在是大几 无论你对于大学是多么的绝望 无论你多么不喜欢你的专业 无论如何 请朋友们好好看完这篇文章 我不能保证你能从此收获多少 但是我保证每一位认真看完的朋友会受益于整个大学生活 他会教你少走弯路 少走的弯路与其他迷惑的同学相比 你就是走了捷径 无论现在多么…

随意写的

圣诞派对上&#xff0c;男人应该穿晚礼服扮绅士&#xff0c;还是套一件雪人图案的毛衫来应景&#xff1f;英国男性时尚杂志《Arena》的编辑Giles Hatersley给男人们的建议是&#xff1a;不要全盘推翻自己&#xff0c;只需在自己一贯的着装风格上增添一些奢华元素&#xff0c;他…

2010公务员考试

2010年国考真题与解析 第一部分 言语理解与表达&#xff08;共40题&#xff0c;参考时限35分钟&#xff09; 本部分包括表达与理解两方面的内容。请根据题目要求&#xff0c;在四个选项中选出一个最恰当的答案。 请开始答题&#xff1a; 1&#xff0e;“诗是不可译的&…