Slurm运行pytorch深度学习模型(小白版)

devtools/2024/10/21 5:38:58/
Slurm背景: 

Slurm 是一种开源的作业调度系统,它用于管理大型计算集群中的计算资源和作业。你可以把它想象成一个“交通管制员”,负责管理计算集群中的各种任务,确保它们按照用户设定的规则有序地执行。

Slurm 的主要功能包括:

  1. 作业调度和管理:Slurm 可以根据用户提交的作业需求,有效地分配计算资源,确保作业能够尽快地得到执行。

  2. 资源分配:它负责管理计算集群中的节点、核心和内存等资源,并根据作业需求动态地分配这些资源。

  3. 作业监控:Slurm 可以实时监控作业的执行情况,包括作业的状态、进度和资源使用情况等。

  4. 用户管理:它允许系统管理员管理用户和用户组,并为每个用户分配适当的权限和资源配额。

总的来说,Slurm 是一个帮助管理大型计算集群的工具,它能够有效地管理计算资源,提高系统的利用率,并为用户提供方便的作业提交和管理功能。

 一.如何运行及提交作业

- 本地创建好conda环境(假设conda名为myenv),并且保证conda已加入环境变量;

- 确定好自己可以访问分区名(假设分区名为ampere);

- 创建好自己想要运行的程序文件(假设为shell.py);

在自己要提交的项目文件夹下创建.sh脚本文件(假设脚本文件x.sh),在该脚本文件中编辑:

#!/bin/bash#SBATCH --mem=200GB#SBATCH --partition=ampere#SBATCH --job-name=part1#SBATCH --output=part1.out#SBATCH --nodes=1#SBATCH --tasks=1#SBATCH --gres=gpu:1#SBATCH --error=part1.errsource activate myenvpython shell.py

每次提交被视为一个job,--job-name为这次job的名称,--output指定这次运行结果的输出文件, --error指定这次运行如果出错,相关报错的输出文件。

--mem 为当前job指定内存空间

--nodes 为当前job指定运行节点个数

--tasks 为当前job指定运行任务个数

--gres 为当前job指定使用的gpu

二.slurm常用命令

查看某一分区(假设分区名称为name)作业运行情况

squeue --partition=name

查看某一用户(假设用户名称为user_name)的所有作业运行情况:

squeue --user=user_name

取消自己提交的某一作业(假设job id为7766)

scancel 7755

http://www.ppmy.cn/devtools/36982.html

相关文章

VMware下Ubuntu的安装教程

文章目录 一、Ubuntu如何下载1.下载官方地址https://ubuntu.com/2.点选Ubuntu服务器版本3.点击下载Ubuntu服务器版本iso镜像二、VMware安装Ubuntu服务器系统1.创建虚拟机2.选择下载好的Ubuntu服务器镜像3.创建安装完成三、Ubuntu Server如何设置1.Ubuntu Server没有中文所以全都…

windows安装ElasticSearch以及踩坑

1.下载 elasticsearch地址:Past Releases of Elastic Stack Software | Elastichttps://www.elastic.co/cn/downloads/past-releases#elasticsearch IK分析器地址:infinilabs/analysis-ik: 🚌 The IK Analysis plugin integrates Lucene IK…

Python做自动化测试必知必会思维导图

🔥 交流讨论:欢迎加入我们一起学习! 🔥 资源分享:耗时200小时精选的「软件测试」资料包 🔥 教程推荐:火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

c/c++:山顶元素

题目描述(题目链接) 从键盘输入一个整型二维数组,遍历二维数组中的每个元素,如果此元素比其上下左右的数字都大,即为山顶元素。 输入格式 一个≥1的整数,表名是几行几列的二维数组,一个整型二维数组,数据…

(数据结构)快速了解时间复杂度和空间复杂度

一、时间复杂度 当计算时间复杂度时,通常需要考虑算法中的循环次数、递归深度等因素。以下是一些常见时间复杂度的示例: O(1):常数时间复杂度,表示算法的执行时间是固定的,与输入规模无关,比如直接访问数组…

高项第四版 十大管理及49个过程【背】作业分享

项目管理 1.十大管理【背】 包括(口诀:范进整狗子(沟质) 才(采)干成疯子(风资)): (1)项目整合管理:识别、定义、组合、统一和协调各项目管理过程组的各个过…

【busybox记录】【shell指令】comm

目录 内容来源: 【GUN】【comm】指令介绍 【busybox】【comm】指令介绍 【linux】【comm】指令介绍 使用示例: 逐行比较两个排序后的文件 - 默认输出 逐行比较两个排序后的文件 - 如果一个文件的排序有问题,那么反错(默认&…

探索淘宝API接口对接(属性规格丨sku价格丨详情图丨优惠券等):打造智能电商解决方案

一、引言 随着电子商务的快速发展,越来越多的企业和开发者希望通过自动化和智能化的方式接入电商平台,以实现更高效的数据交互和业务流程。淘宝作为中国最大的电商平台之一,其提供的API接口成为了众多企业和开发者关注的焦点。本文将探讨淘宝…