1、配置文件可以通过拷贝默认的模版文件来获得:slurm.conf.example
2、配置文件可以通过官方Web页面按需输入参数后生成来获得:https://slurm.schedmd.com/configurator.html
3、不管通过哪种方式来获取配置文件,对于大部分参数来说保持默认即可(除非有特殊需求那就按需自定义),只有少部分参数开始就要按需配置;
#集群名称;默认为”linux”;可保持默认,按需配置;
#主控端主机名;默认”linux0″;根据Master端的实际主机名配置;
ControlAddr=192.168.80.250
#主控端IP地址;默认注释状态;当集群环境有DNS服务时可保持默认即可,如没有DNS服务时则需要根据Master端的实际IP地址配置;
建议不管有无DNS服务都配置
;#Slurm Service服务运行专用账户;默认”slurm”;保持默认即可;表示该服务并不是以root用户或其它用户来运行管理的,而是专用账户slurm来运行管理的;
SlurmctldPort=6817
#主控端服务(slurmctld.service)默认端口号;保持默认即可;
SlurmdPort=6818
#节点端服务(slurmd.service)默认端口号;保持默认即可;
AuthType=auth/munge
#主控端与节点端之间认证授权通信方式;默认”munge”,保持默认即可;
#主控端状态文件存放的目录路径,保持默认即可;
SlurmdSpoolDir=/var/spool/slurm/d
#节点端状态文件存放的目录路径,保持默认即可;
SlurmctldPidFile=/var/run/slurmctld.pid
#主控端PID文件存放的目录路径,保持默认即可;
SlurmdPidFile=/var/run/slurmd.pid
#节点端PID文件存放的目录路径,保持默认即可;
#避免节点端意外重启处于Down状态,默认”0″;建议”2″,重启后自动恢复成idle状态;
#主控端日志文件存放的目录路径,保持默认即可;
SlurmdLogFile=/var/log/slurmd.log
#节点端日志文件存放的目录路径,保持默认即可;
#节点端的资源配置;默认值;详情见下面的节点端资源配置说明
节点端资源配置说明:表示计算节点在进行计算任务时可以使用到节点的最大资源
NodeName=NodeHostName #配置节点主机名;编号格式:独立的”NodeName1″、连续的(含不连续的)”NodeName[2-3,4,6,7-10]”;连续的节点用”-“来表示,不连续的节点用”,”表示;
NodeAddr=x.x.x.x #配置对应节点的IPv4地址;当集群环境有DNS服务时此项可不配置;
CPUs=N #N为数字;表示CPU逻辑核数(总核数);
Sockets=N #N为数字;表示CPU实际物理插槽数
CoresPerSocket=N #N为数字;表示每个CPU插槽核数(每颗物理CPU核数)
ThreadsPerCore=N #N为数字;表示每个CPU核心线程数;不配置默认为单线程;
Procs=N #N为数字;表示实际分配CPU核数
RealMemory=N #N为数字,表示分配内存容量(默认单位MB)
State=UNKNOWN #表示节点端状态;默认”UNKNOWN”表示不知;保持默认即可;
#计算节点分区队列的属性配置;默认值;详情见下面的节点端资源配置说明
计算节点分区队列配置说明:表示进行计算任务时可以指定不同的计算节点的分区队列进行不同的计算
PartitionName=debug #计算分区队列;默认”debug”;可按需自定义;
Nodes=ALL #表示分区队列内包含的计算节点数量;默认”ALL”;可按需自定义,节点编号格式:独立的”NodeName1″、连续的(含不连续的)”NodeName[2-3,4,6,7-10]”;连续的节点用”-“来表示,不连续的节点用”,”表示;
Default=YES #是否为计算队列分区,默认”YES”,反之则”NO”;表示Slurm在提交任务时不指定分区队列时默认使用的计算分区队列;多分区队列模式下只能一个分区配置YES模式;
MaxTime=INFINITE #计算任务的最大时间限制(默认单位为分钟),默认”INFINITE”无限;保持默认即可;
State=UP #分区队列状态,默认”UP”有效;保持默认即可;