
2020-11
SLURM (Simple Linux Utility for Resource Management)是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。SLURM 维护着一个待处理工作的...
2019-11
在北京大学北极星高性能计算平台中,使用squeue查看任务 比如任务132155 scontrol update JobId=132155 StartTime=now+30days scontrol update JobId=132155 StartTime=now#马上执行 •• •正在运行的! scontrol u...
2019-11
一、slurm变量简介 常用环境变量(如何调度环境变量请点击这里) 下表是 SLURM 环境变量(长变量): 变量说明 SLURM_NPROCS 要加载的进程数 SLURM_TASKS_PER_NODE 每节点要加载的任务数 SLURM_JOB_ID 作业的 JobID ...
2019-11
等待上个任务执行完再执行任务,用以下参数 --dependency=afterok:xxxxx(XXXXX为任务ID) 这里以cn-long分区为例: 目录在:/lustre2/teach_pkuhpc/example/s10_ctrl 1、执行获取脚本: [test_pkuhpc@login12 s10_c...
2019-11
使用squeue查看任务: 比如任务132155 对排队的队列操作(用户,pkucontrol=scontrol): pkucontrol hold id pkucontrol release id 案例: pkurun-gpu 2 20 sleep 11 pkurun-gpu 2 20 sleep 11 pkusq|grep gpu pku...
2019-11
使用squeue查看任务 比如任务132155 对正在运行的队列操作(管理员): pkucontrol suspend 132155 pkucontrol resume 132155 pkucontrol=scontrol