Acompanhar Jobs
Última modificação: Domingo, 26 de janeiro de 2025
Através do comando squeue é possível verificar a fila de execuções em cada partição, acompanhar a execução de um job e caso necessário, cancelar uma execução.
squeue -a – exibe a fila de execuções em todas as partições, de todos os usuários. Veja abaixo um exemplo de saída.
[cefet@hpc-login-2 ~]$ squeue -a
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
771_[27-30] large exec.txt usuario1 PD 0:00 1 (Resources)
791_[1-30] large exec.txt usuario2 PD 0:00 1 (Priority)
771_26 large exec.txt usuario2 R 3:24:08 1 compute-1-2
771_25 large exec.txt usuario4 R 3:29:39 1 compute-1-3
771_24 large exec.txt usuario1 R 3:45:14 1 compute-1-0
771_23 large exec.txt usuario2 R 4:05:30 1 compute-1-1
[cefet@cluster ~]$
squeue -u usuario – exibe os jobs em execução criados pelo usuário.
[usuario1@hpc-login-2 ~]$ squeue -u usuario1
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
1095_[45-111] CLUSTER teste usuario1 PD 0:00 6 (Resources)
1095_44 CLUSTER teste usuario1 R 0:00 8 compute-2-[1-2],compute-3-[1-6]
[usuario1@cluster ~]$
scancel job_id – Cancela a execução do job com o id informado.
É importante verificar se está cancelando o job correto, para isso, liste os jobs com o comando: squeue -u seu_usuario
[usuario1@hpc-login-2 ~]$ squeue -u usuario1
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
1225_[49-111] CLUSTER teste usuario1 PD 0:00 6 (Resources)
1225_48 CLUSTER teste usuario1 R 0:01 8 compute-2-[1-2],compute-3-[1-6]
[usuario1@cluster ~]$ scancel 1225
[usuario1@cluster ~]$
Para saber mais opções de filtro, consulte o manual diretamente no terminal: man squeue.