Slurm运行pytorch深度学习模型(小白版)

ops/2024/10/20 2:02:18/
Slurm背景: 

Slurm 是一种开源的作业调度系统,它用于管理大型计算集群中的计算资源和作业。你可以把它想象成一个“交通管制员”,负责管理计算集群中的各种任务,确保它们按照用户设定的规则有序地执行。

Slurm 的主要功能包括:

  1. 作业调度和管理:Slurm 可以根据用户提交的作业需求,有效地分配计算资源,确保作业能够尽快地得到执行。

  2. 资源分配:它负责管理计算集群中的节点、核心和内存等资源,并根据作业需求动态地分配这些资源。

  3. 作业监控:Slurm 可以实时监控作业的执行情况,包括作业的状态、进度和资源使用情况等。

  4. 用户管理:它允许系统管理员管理用户和用户组,并为每个用户分配适当的权限和资源配额。

总的来说,Slurm 是一个帮助管理大型计算集群的工具,它能够有效地管理计算资源,提高系统的利用率,并为用户提供方便的作业提交和管理功能。

 一.如何运行及提交作业

- 本地创建好conda环境(假设conda名为myenv),并且保证conda已加入环境变量;

- 确定好自己可以访问分区名(假设分区名为ampere);

- 创建好自己想要运行的程序文件(假设为shell.py);

在自己要提交的项目文件夹下创建.sh脚本文件(假设脚本文件x.sh),在该脚本文件中编辑:

#!/bin/bash#SBATCH --mem=200GB#SBATCH --partition=ampere#SBATCH --job-name=part1#SBATCH --output=part1.out#SBATCH --nodes=1#SBATCH --tasks=1#SBATCH --gres=gpu:1#SBATCH --error=part1.errsource activate myenvpython shell.py

每次提交被视为一个job,--job-name为这次job的名称,--output指定这次运行结果的输出文件, --error指定这次运行如果出错,相关报错的输出文件。

--mem 为当前job指定内存空间

--nodes 为当前job指定运行节点个数

--tasks 为当前job指定运行任务个数

--gres 为当前job指定使用的gpu

二.slurm常用命令

查看某一分区(假设分区名称为name)作业运行情况

squeue --partition=name

查看某一用户(假设用户名称为user_name)的所有作业运行情况:

squeue --user=user_name

取消自己提交的某一作业(假设job id为7766)

scancel 7755

http://www.ppmy.cn/ops/37639.html

相关文章

第50期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…

Pytorch 实现情感分析

情感分析 情感分析是 NLP 一种应用场景,模型判断输入语句是积极的还是消极的,实际应用适用于评论、客服等多场景。情感分析通过 transformer 架构中的 encoder 层再加上情感分类层进行实现。 安装依赖 需要安装 Poytorch NLP 相关依赖 pip install t…

Java | Leetcode Java题解之第68题文本左右对齐

题目&#xff1a; 题解&#xff1a; class Solution {private String line(List<String> list,int maxWidth,int totalLength,boolean isLast){StringBuilder sb new StringBuilder();sb.append(list.get(0));if(list.size() 1){String ap " ".repeat(maxW…

uniapp离线在Xcode上打包后提交审核时提示NSUserTrackingUsageDescription的解决方法

uniapp离线在Xcode上打包后提交审核时提示NSUserTrackingUsageDescription的解决方法 问题截图&#xff1a; 亲测有效的方法 方法一&#xff1a; 选择通过uniapp的开发工具Hbuilder来进行在线打包&#xff0c;取消默认勾选的以下选项。 然后进行在线打包就不会存在提交审…

了解 websocket

​ 1. 概念 1、 websocket 是一种双向通行协议。实现了浏览器与服务器全双工通信&#xff0c;能更好的节省服务器资源和带宽并达到实时通讯的目的&#xff1b; 2、websocket连接成功后&#xff0c;只要连接不断开&#xff0c;通信就会一保持着&#xff1b; 3、要打开一个 WebS…

数据挖掘流程是怎样的?数据挖掘平台基本功能有哪些?

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘的流程是&#xff1a; 清晰地定义出业务问题&#xff0c;确定数据挖掘的目的。 数据准备: 数据准备包括&am…

海明码校验

5.3.6 海明纠错码 海明码&#xff08;Hamming Code&#xff09;是一个可以有多个校验位&#xff0c;具有检测并纠正一位错误代码的纠错码&#xff0c;所以它也仅用于信道特性比较好的环境中&#xff0c;如以太局域网中&#xff0c;因为如果信道特性不好的情况下&#xff0c;出现…

“王翦五讨赏地,萧何三贬其身”的背后,正是智者安身的处世之道

冯子曰&#xff1a;智者&#xff0c;术所以生也&#xff1b;术者&#xff0c;智所以转也。 智慧的人&#xff0c;从不蛮行横性&#xff0c;而是懂得如何在世道和自我之间谋得最佳的处境。 最近在《智囊全集》中偶然瞥到的一则小故事&#xff0c;恰如文首所言。 01、王翦五讨…