This shows you the differences between two versions of the page.
|
asc:laboratoare:01 [2026/04/10 17:10] tudor.calafeteanu [Configurarea mediului de lucru pe cluster ] |
asc:laboratoare:01 [2026/04/10 17:27] (current) tudor.calafeteanu [Comenzi uzuale SLURM] |
||
|---|---|---|---|
| Line 73: | Line 73: | ||
| </code> | </code> | ||
| - | Explicații coloane: **CPUS** = număr total de thread-uri hardware per nod, **MEMORY** = RAM în MB per nod, **GRES** = resurse generice (GPU-uri: tip și număr per nod), **AVAIL** = starea partiției. | + | Explicații coloane: **CPUS** = număr total de thread-uri hardware **per nod**, **MEMORY** = RAM **per nod** (în MB), **GRES** = resurse generice (GPU-uri: tip și număr **per nod**), **AVAIL** = starea partiției. |
| Asteriscul din dreptul partiției (''haswell*'' în cazul nostru) indică **partiția implicită**. Dacă nu specificați o partiție, SLURM va aloca jobul pe partiția implicită. | Asteriscul din dreptul partiției (''haswell*'' în cazul nostru) indică **partiția implicită**. Dacă nu specificați o partiție, SLURM va aloca jobul pe partiția implicită. | ||
| Line 116: | Line 116: | ||
| ¹ Sockets/Node x Cores/Socket x Threads/Core = Threads/Node \\ | ¹ Sockets/Node x Cores/Socket x Threads/Core = Threads/Node \\ | ||
| - | ² Pe AMD EPYC, fiecare socket expune 4 NUMA nodes datorită arhitecturii chiplet (CCD/CCX). Fiecare NUMA node conține 16 core-uri și o porțiune de memorie locală. Pe Intel, de regulă 1 socket = 1 NUMA node. | + | ² Pe AMD EPYC, fiecare socket expune 4 NUMA nodes datorită arhitecturii chiplet (CCD/CCX). Fiecare NUMA node conține 16 core-uri și o porțiune de memorie locală. Pe Intel, de regulă, 1 socket = 1 NUMA node. |
| <spoiler Alte informații utile (click pentru detalii)> | <spoiler Alte informații utile (click pentru detalii)> | ||
| Line 260: | Line 260: | ||
| module help | module help | ||
| module avail # afișează modulele disponibile | module avail # afișează modulele disponibile | ||
| - | module load libraries/cuda-13.0 # încarcă biblioteca CUDA corespunzătoare | + | module load libraries/cuda-13.0 # încarcă modulul de CUDA corespunzător |
| module list # arată modulele active în sesiunea curentă | module list # arată modulele active în sesiunea curentă | ||
| module unload libraries/cuda-13.0 # dezactivează un modul | module unload libraries/cuda-13.0 # dezactivează un modul | ||
| Line 366: | Line 366: | ||
| #SBATCH --partition=ucsx | #SBATCH --partition=ucsx | ||
| #SBATCH --gres=gpu:1 | #SBATCH --gres=gpu:1 | ||
| - | # Configurare manuală CUDA (vezi secțiunea "Configurarea mediului de lucru") | + | module load libraries/cuda-13.0 |
| - | export PATH=/usr/local/cuda/bin:$PATH | + | |
| - | export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH | + | |
| nvcc -o hello_cuda hello_cuda.cu | nvcc -o hello_cuda hello_cuda.cu | ||
| ./hello_cuda | ./hello_cuda | ||
| Line 400: | Line 398: | ||
| srun --partition=ucsx --gres=gpu:1 --pty bash # sesiune interactivă pe nodul de calcul | srun --partition=ucsx --gres=gpu:1 --pty bash # sesiune interactivă pe nodul de calcul | ||
| srun --partition=haswell -w haswell-wnxx --pty bash # rulare interactivă simplă pe un anumit nod (xx se inlocuieste cu un numar anume de sistem) de pe partitia haswell | srun --partition=haswell -w haswell-wnxx --pty bash # rulare interactivă simplă pe un anumit nod (xx se inlocuieste cu un numar anume de sistem) de pe partitia haswell | ||
| - | |||
| # === Informații despre cluster === | # === Informații despre cluster === | ||