Вы здесь

Запуск задач на кластере

  • Упрощённые команды в ИММ УрО РАН
  • При запуске задачи пользователя на счет

    Запуск программ осуществляется в системе SLURM. В результате запуска задача помещается в очередь заданий и ей присваивается уникальный идентификатор (его можно узнать командами mqinfo, mps или squeue, sacct). По умолчанию задаче пользователя выделяется по 1 ГБ оперативной памяти на каждое вычислительное ядро (при необходимости размер исполняемой программы в байтах можно узнать с помощью команды size).

    На основе команд SLURM (которые начинаются с буквы s) для удобства пользователей (в частности, обеспечения преемственности при переходе на SLURM, см. [6]) были реализованы упрощённые команды запуска MPI-, MATLAB-, ANSYS-программ и информационные команды (начинающиеся с буквы m).


    Упрощённые команды

    mqrun, замена mpirun, — запуск программы на кластере, аналог команды sbatch

    mqinfo — выдача информации об узлах и очереди заданий с помощью команд sinfo и squeue
    mps или mqinfo -u $USER -l — выдача информации об узлах и задачах только самого пользователя
    mqdel,  mkill — отмена выполнения задачи (ожидающей старта или уже стартовавшей), действуют как команда scancel

    Команда mqrun (замена mpirun, аналог sbatch ) запускает в пакетном режиме успешно откомпилированную С- или Fortran-программу, например

mqrun -np 8 -maxtime 20 -stdin in.txt mytest

где для mytest затребовано формирование 8 процессов (опция -np или -n) с выделением каждому по умолчанию 1950 MB (т.е. -m 1950) и установкой входного файла (-stdin) при ограничении времени счета 20-ю минутами (–maxtime или –t). Так как не указаны опции -stdout и -stderr, то стандартными выходными файлами будут автоматически созданные mytest.1/output, mytest.1/error.
В ответ в строке вида Submitted batch job 1475 выдаётся уникальный идентификатор задачи в очереди заданий, здесь 1475. Уникальный идентификатор используется в командах отмены выполнения задания, например

mqdel 1475   #или mkill 1475

Внимание!
1. В каталогах вида имя_программы.номер номера возрастают, начиная с 1. Пользователь должен сам удалять ненужные каталоги.
2. Для выдачи опций mqrun следует набрать

mqrun -help

3. При необходимости можно указать опции команды sbatch в качестве значения параметра --slurm-opts команды mqrun, например:

mqrun -n 6 -nh 2 --slurm-opts '--ntasks-per-node=3 --gres=gpu:3 -x tesla[49,52]' ./test