slurm和作业调度

  • 一、slurm调度系统简介

    SLURM (Simple Linux Utility for Resource Management)是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它以一种共享或非共享的方式管理可用的计算节点(取决于资源的需求),以供用户执行工作。SLURM 会为任务队列合理

    2020-11-10 admin 13579

  • 使用scontrol 对北京大学北极星队列中等待或运行任务加时间

    在北京大学北极星高性能计算平台中,使用squeue查看任务比如任务132155scontrol update JobId=132155 StartTime=now+30daysscontrol update JobId=132155 StartTime=now#马上执行 •• •正在运行的!scontrol update jobid=JOBID TimeLimit=new_timelimit 比如

    2019-11-25 admin 666

  • 获取slurm内部环境变量以及变量作用

    一、slurm变量简介常用环境变量(如何调度环境变量请点击这里)下表是 SLURM 环境变量(长变量):变量说明SLURM_NPROCS要加载的进程数SLURM_TASKS_PER_NODE每节点要加载的任务数SLURM_JOB_ID作业的 JobIDSLURM_SUBMIT_DIR提交作业时的工作目录SLURM_JOB_NODELIST作业分配的节点列表SLURM_JOB_CPUS_PER_NO

    2019-11-13 admin 3382

  • 等待上个任务执行成功再执行任务(任务依赖)

    这里以cn-long分区为例:1、执行获取脚本:[test_pkuhpc@login12 s10_ctrl]$ pkurun-cnlong 1 1 sleep 1 Submitted batch job 10948072、修改查看脚本:[test_pkuhpc@login12 s10_ctrl]$ mv job.srp000753 job-org.srp修改脚本job-org.srp

    2019-11-13 admin 1179

  • 使用scontrol 对slrum正在运行的队列hold操作(用户)

    使用squeue查看任务:比如任务132155对排队的队列操作(用户,pkucontrol=scontrol):pkucontrol hold idpkucontrol release id案例:pkurun-gpu 2 20 sleep 11pkurun-gpu 2 20 sleep 11pkusq|grep gpupkucontrol hold `pkusq|grep gpu|awk &#

    2019-11-09 admin 501

  • 使用scontrol 对slrum正在运行的队列suspend操作(管理员)

    使用squeue查看任务比如任务132155对正在运行的队列操作(管理员):pkucontrol suspend 132155pkucontrol resume 132155pkucontrol=scontrol

    2019-11-09 admin 400

上一页1下一页 转至第
首页
资源&收费
集群
成果
问答