Просмотр информации о кластере

squeue sacct sinfo scontrol характеристики GPU

squeue — просмотр очереди (информации о задачах, находящихся в счете или в очереди на счет); возможно использование ключей, например:

squeue --user=`whoami`   # посмотреть только свои задачи;
squeue --states=RUNNING  # посмотреть считающиеся задачи;
squeue --long            # выдать более подробную информацию.

Пример

u9999@umt:~$ srun -N 2 sleep 30 &
[1] 22313
u9999@umt:~$ squeue
  JOBID PARTITION     NAME     USER    ST    TIME  NODES NODELIST(REASON)
  777   all           sleep    u9999   R     0:23  2     umt[10,15] 
  • JOBID — уникальный идентификатор задачи; никогда не используется повторно ;
  • PARTITION — название раздела, где считается задача;
  • NAME — имя задачи пользователя;
  • USER — логин пользователя;
  • ST — состояние задачи
    • R - выполняется,
    • PD - в очереди;
  • TIME — текущее время счета;
  • NODES — количество узлов для задачи;
  • NODELIST(REASON) — список выделенных узлов.

sacct — просмотр задач текущего пользователя за сутки (с начала текущего дня); возможно использование ключей, например:

sacct -u u9999 --starttime 2019-01-01     # посмотреть все задачи пользователя u9999 с начала года.

Пример

u9999@umt:~$ sacct
JobID       JobName     Partition     AllocCPUS    State           ExitCode
---------   ----------  ----------    ------------ -------------   --------
522             sbatch      tesla         2            COMPLETED       0:0
522.batch       batch                     1            COMPLETED       0:0
777             sleep       all           2            CANCELLED+      0:0
780             sbatch      tesla         2            FAILED          0:0
780.batch       batch                     1            FAILED        127:0
783             sleep       tesla         2            RUNNING         0:0
  • JobID — уникальный идентификатор задачи, повторно не используется;
  • JobName — имя задачи пользователя;
  • Partition — название раздела, где считается задача;
  • State — состояние задачи:
    • RUNNING — выполняется,
    • PENDING — ждёт в очереди,
    • COMPLETED — закончилась,
    • FAILED — закончилась по ошибке,
    • CANCELLED+ — снята пользователем;
  • ExitCode — код возврата.

sinfo — просмотр информации об узлах (прежде всего, о состоянии узлов: доступны, заняты, свободны, ...); возможно использование ключей, например:

sinfo -s  # выдача суммарной информации о разделах кластера без детализации по узлам. 

Пример

u9999@umt:~$ sinfo 
PARTITION   AVAIL  TIMELIMIT  NODES   STATE   NODELIST 
umt*        up      8:00:00       4   down*   umt[59,92,139,201] 
umt*        up      8:00:00     203   idle    umt[1-58,60-91,93-118,120-138,140-200,202-208] 
umt*        up      8:00:00       1   down    umt119 
tesla       up      8:00:00       1   alloc   tesla2 
tesla       up      8:00:00      18   idle    tesla[3-20] 
tesla       up      8:00:00       1   down    tesla1
  • PARTITION — название раздела, где считаются задачи,
    * - указывает на раздел по умолчанию;
  • AVAIL — состояние раздела узлов: up - есть доступ, down - нет доступа;
  • TIMELIMIT — максимальное время, выделяемое для счета задачи;
  • NODES — количество узлов;
  • STATE — состояние (в сокращённой форме):
    • idle - свободен,
    • alloc - используется процессом,
    • mix - частично занят, частично свободен,
    • down, drain, drng - заблокирован,
    • comp - все задания, связанные с этим узлом, находятся в процессе завершения;
    • * - обозначает узлы, которые в настоящее время не отвечают (not responding);
  • NODELIST — список узлов.

Пример выдачи sinfo из команд mqinfo и mps:

PARTITION  SOCKET CORE CPU THREAD GRES     TIMELIMIT   CPUS(A/I/O/T)
umt        2      4    8   1               20:00:00    1203/53/408/1664
tesla      2      6    12  1      gpu:8    infinite    322/2/36/360
all*       2      4+   8+  1               20:00:00    1525/55/444/2024
  • PARTITION — название раздела: umt, tesla, all; * отмечен раздел по умолчанию;
  • SOCKET — число процессоров на узле;
  • CORE — число ядер в процессоре;
  • CPU — число ядер на узле;
  • THREAD — число нитей на ядро;
  • GRES — число общих для узла ресурсов, где gpu - графический ускоритель;
  • TIMELIMIT — максимальное время, выделяемое для счета задачи;
  • CPUS(A/I/O/T) — число ядер:
    • A (alloc) - заняты,
    • I (idle) - свободны,
    • O (other) - заблокированы,
    • T (total) - всего.

scontrol — выдача детальной информации об узлах, разделах, задачах:

scontrol show node tesla34  # информация об узле,    
                              в частности, причине состояния drain, down;
scontrol show partition     # о разделах;
scontrol show job 174457    # о задаче.

Информацию о технических характеристиках GPU выдает программа nvidia-smi:

srun --gres=gpu:1 nvidia-smi

Опция вида -w tesla21 позволяет выдать эту информацию для конкретного узла, например:

u9999@umt:~$ srun -w tesla21 --gres=gpu:1 nvidia-smi
Fri Jun 14 17:15:57 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.46                 Driver Version: 390.46                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M2090         On   | 00000000:09:00.0 Off |                  Off |
| N/A   N/A   P12    28W /  N/A |      0MiB /  6067MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla M2090         On   | 00000000:0A:00.0 Off |                  Off |
| N/A   N/A   P12    27W /  N/A |      0MiB /  6067MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  Tesla M2090         On   | 00000000:0D:00.0 Off |                  Off |
| N/A   N/A   P12    28W /  N/A |      0MiB /  6067MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   7  Tesla M2090         On   | 00000000:33:00.0 Off |                  Off |
| N/A   N/A   P12    28W /  N/A |      0MiB /  6067MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Дополнительная информация о характеристиках GPU доступна с помощью программы pgaccelinfo (входит в поставку компилятора PGI). Для получения информации о конкретном узле, используя опцию -w, следует набрать:

u9999@umt:~$ mpiset 7  
u9999@umt:~$ srun -w tesla21 --gres=gpu:1 pgaccelinfo