squeue sacct sinfo scontrol характеристики GPU
squeue
— просмотр очереди (информации о задачах, находящихся в счете или в очереди на счет); возможно использование ключей, например:
squeue --user=`whoami` # посмотреть только свои задачи;
squeue --states=RUNNING # посмотреть считающиеся задачи;
squeue --long # выдать более подробную информацию.
Пример
u9999@umt:~$ srun -N 2 sleep 30 &
[1] 22313
u9999@umt:~$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
777 all sleep u9999 R 0:23 2 umt[10,15]
sacct
— просмотр задач текущего пользователя за сутки (с начала текущего дня);
возможно использование ключей, например:
sacct -u u9999 --starttime 2019-01-01 # посмотреть все задачи пользователя u9999 с начала года.
Пример
u9999@umt:~$ sacct
JobID JobName Partition AllocCPUS State ExitCode
--------- ---------- ---------- ------------ ------------- --------
522 sbatch tesla 2 COMPLETED 0:0
522.batch batch 1 COMPLETED 0:0
777 sleep all 2 CANCELLED+ 0:0
780 sbatch tesla 2 FAILED 0:0
780.batch batch 1 FAILED 127:0
783 sleep tesla 2 RUNNING 0:0
sinfo
— просмотр информации об узлах (прежде всего, о состоянии узлов: доступны, заняты, свободны, ...);
возможно использование ключей, например:
sinfo -s # выдача суммарной информации о разделах кластера без детализации по узлам.
Пример
u9999@umt:~$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
umt* up 8:00:00 4 down* umt[59,92,139,201]
umt* up 8:00:00 203 idle umt[1-58,60-91,93-118,120-138,140-200,202-208]
umt* up 8:00:00 1 down umt119
tesla up 8:00:00 1 alloc tesla2
tesla up 8:00:00 18 idle tesla[3-20]
tesla up 8:00:00 1 down tesla1
Пример выдачи sinfo
из команд mqinfo
и mps
:
PARTITION SOCKET CORE CPU THREAD GRES TIMELIMIT CPUS(A/I/O/T)
umt 2 4 8 1 20:00:00 1203/53/408/1664
tesla 2 6 12 1 gpu:8 infinite 322/2/36/360
all* 2 4+ 8+ 1 20:00:00 1525/55/444/2024
scontrol
— выдача детальной информации об узлах, разделах, задачах:
scontrol show node tesla34 # информация об узле,
в частности, причине состояния drain, down;
scontrol show partition # о разделах;
scontrol show job 174457 # о задаче.
Информацию о технических характеристиках GPU выдает программа nvidia-smi
:
srun --gres=gpu:1 nvidia-smi
Опция вида -w tesla21
позволяет выдать эту информацию для конкретного узла, например:
u9999@umt:~$ srun -w tesla21 --gres=gpu:1 nvidia-smi
Fri Jun 14 17:15:57 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.46 Driver Version: 390.46 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M2090 On | 00000000:09:00.0 Off | Off |
| N/A N/A P12 28W / N/A | 0MiB / 6067MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla M2090 On | 00000000:0A:00.0 Off | Off |
| N/A N/A P12 27W / N/A | 0MiB / 6067MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla M2090 On | 00000000:0D:00.0 Off | Off |
| N/A N/A P12 28W / N/A | 0MiB / 6067MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 7 Tesla M2090 On | 00000000:33:00.0 Off | Off |
| N/A N/A P12 28W / N/A | 0MiB / 6067MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
Дополнительная информация о характеристиках GPU доступна с помощью программы pgaccelinfo
(входит в поставку компилятора PGI). Для получения информации о конкретном узле, используя опцию -w
, следует набрать:
u9999@umt:~$ mpiset 7
u9999@umt:~$ srun -w tesla21 --gres=gpu:1 pgaccelinfo