DCU集群搭建虚拟环境方法简介

news/2024/11/29 23:29:41/

1.conda安装方法:

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh  #下载miniconda安装包chmod 750 Miniconda3-latest-Linux-x86_64.sh  #添加执行权限bash ./Miniconda3-latest-Linux-x86_64.sh  #安装下载的minnconda3

下载安装包
修改权限并安装
查看安装的conda版本
2.集群安装dcu版本的pytorch安装包
格式:
conda create -n 虚拟环境名 python=3.8

(1)集群一般会预置适配的安装包,路径为:/public/software/apps/DeepLearning/whl
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

环境搭建方法(以安装dtk2304下面的torch1.13-py38为例):

conda create -n torch_test_env python=3.8 -y  # torch_test_env为虚拟环境名,可以自定义 ,-y 表示yes,无需在安装过程中再手动输入conda activate torch_test_env  #激活虚拟环境pip install /public/software/apps/DeepLearning/whl/dtk-23.04/pytorch/torch-1.13/py38/torch-1.13.1+git55d300e.abi0.dtk2304-cp38-cp38-manylinux2014_x86_64.whl -i https://pypi.mirrors.ustc.edu.cn/simple     #安装集群的torch包,-i 后面表示镜像源,可以加速安装#其他不涉及加速的包可以正常pip install 安装注意:选择的torch版本对应的python需要和创建环境时的python相匹配

在这里插入图片描述
验证:

salloc -p wzhdnormal -N1 -n32 --gres=dcu:4 #申请资源。-p后面表示队列名,可以通过whichpartition查看到。wzhdnormal其中hd表示dcu队列 ,-N 表示节点数,-n 表示核心数,dcu:4表示卡数,一般核:卡=8:1,即若申请两张卡,对应核数为16,salloc -p wzhdnormal -N1 -n16 --gres=dcu:2ssh 计算节点 #登录计算节点,squeue查看作业运行状态,nodelist下面对应的为计算节点
conda activate torch_test_env  #重新进入虚拟环境
module switch compiler/dtk/23.04 #切换为对应的dtk版本
python
import torch
torch.cuda.is_available() #显示true表示安装成功注意:验证完请务必取消作业,scancel JOBID

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

作业提交参考脚本:

test.slurm #自定义脚本名

#!/bin/bash
#BATCH -J test                         # 作业名
#SBATCH -p wzhdnormal                  # 队列名  使用whichpartition 查看
#SBATCH -N 1                            # 节点数量
#SBATCH --ntasks-per-node=1           # 每节点运行进程数
#SBATCH -c 8                                   # 每个进程所用cpu核数
#SBATCH --gres=dcu:1                    # 每个节点申请的dcu数量
#SBATCH -o %j.out                       # 作业标准输出
#SBATCH -e %j.out                       # 作业错误输出,这里两种输出放在了一个文件中显示#加载conda环境
source ~/miniconda3/etc/profile.d/conda.sh
conda activate  torch_test_env
#加载module
module purge
module load compiler/devtoolset/7.3.1
module load mpi/hpcx/gcc-7.3.1
module load compiler/dtk/23.04#运行程序
python -u main.py 

提交作业:sbatch 脚本名
查看作业:squeue
取消作业:scancel 作业号 (作业号:执行squeue,jobid下面的数字)
实时查看输出:tail -f 输出文件名


http://www.ppmy.cn/news/1201185.html

相关文章

嬴图 | LLM+Graph:大语言模型与图数据库技术的协同

前言 2022年11月以来,大语言模型席卷全球,在自然语言任务中表现卓越。尽管存在一系列伦理、安全等方面的担心,但各界对该技术的热情和关注并未减弱。 本文不谈智能伦理方面的问题,仅集中于Ulitpa嬴图在应用中的一些探索与实践&a…

Java 求两个向量余弦相似度计算代码

Java 求两个向量余弦相似度计算代码 公式&#xff1a; 源码&#xff1a; public Double getCosineSimilarity( List<Double> x, List<Double> y ){double numerator 0D;for( int i 0; i < x.size(); i ){numerator x.get( i ) * y.get( i );}double leftD…

如何优化服务器负载均衡策略?一文讲解

在现代大规模、高流量的网络使用场景中&#xff0c;对于企业来说&#xff0c;仅凭单机提供业务已不能给用户带来最佳体验&#xff0c;应用的可靠性和速度也会受到影响。为了应对高并发和海量数据的挑战&#xff0c;必须提升系统性能&#xff0c;服务器负载均衡技术应运而生。那…

前端数据加解密:保护敏感信息的关键

前言 如今&#xff0c;数据安全和隐私保护变得至关重要。本文旨在引领大家探索前端数据加密与解密的基本概念&#xff0c;并介绍常用的加密算法&#xff0c;让大家深入了解数据加解密的世界&#xff0c;探究其背后的原理、最佳实践和常见应用场景。 前端主流加密方式 对称加密 …

二叉树的最大深度(C++解法)

题目 给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;3示例 2&#xff1a; 输入&#xff1a;root [1,null,2…

idea使用lombok编译问题

idea编译报错问题如下&#xff1a; java: You arent using a compiler supported by lombok, so lombok will not work and has been disabled.Your processor is: com.sun.proxy.$Proxy26Lombok supports: OpenJDK javac, ECJ解决方案&#xff1a;在idea配置中File->Setti…

发布管理工作流程介绍

对于 IT 团队来说&#xff0c;管理涉及多个角色的发布是一项具有挑战性的任务。由于交付承诺遵守时间和准确性&#xff0c;因此发布管理在软件交付过程中发挥着至关重要的作用。对于 IT 团队来说&#xff0c;发布管理是一个复杂的过程。 通常&#xff0c;发布经理必须执行两项…

蓝鹏测控平台软件 智能制造生产线的大脑

测控软件平台&#xff0c;是由包括底层驱动程序、通讯协议等&#xff0c;集数据采集、自动反馈控制、信息分析以及多种工程应用于一体的一种电子信息处理平台。 蓝鹏测控软件平台目前支持各种文本标签 、数字标签&#xff1b;支持趋势图、波动图、缺陷图及统计图表。多端口实现…