ฉันกำลังพยายามส่งงานกับสเลม อย่างไรก็ตาม งานจะล้มเหลวหากฉันใช้ srun
หรือ mpirun
อย่างไรก็ตาม มันทำงานได้ดีด้วย mpiexec
แม้ว่าจะทำงานด้วยกระบวนการเดียวเท่านั้น แม้ว่าจะมีหลายโหนดและหลายคอร์ก็ตามที่ได้รับการจัดสรร
คำสั่งจริงที่ใช้คือ:
srun /nfs/home/6/sanjeevis/dns/lb3d/src/lbe -f input-default
ต่อไปนี้เป็นข้อผิดพลาดที่ฉันได้รับจาก srun/mpirun
:
[mpiexec@n1581] match_arg (utils/args/args.c:163): unrecognized argument pmi_args
[mpiexec@n1581] HYDU_parse_array (utils/args/args.c:178): argument matching returned error
[mpiexec@n1581] parse_args (ui/mpich/utils.c:1642): error parsing input array
[mpiexec@n1581] HYD_uii_mpx_get_parameters (ui/mpich/utils.c:1694): unable to parse user arguments
โค้ดคอมไพล์ได้ดี แต่ฉันกำลังประสบปัญหาผ่านสเลม ความช่วยเหลือใด ๆ เกี่ยวกับเรื่องนี้ได้รับการชื่นชม
แก้ไข: นี่คือผลลัพธ์สำหรับ which mpirun, mpiexec, and ldd
ของไฟล์ปฏิบัติการ:
/nfs/apps/MPI/openmpi/3.1.3/gnu/6.5.0/cuda/9.0/bin/mpirun
/nfs/apps/ParaView/5.8/binary/bin/mpiexec
linux-vdso.so.1 => (0x00007fff78255000)
libmpi.so.12 => /nfs/apps/Compilers/Intel/ParallelStudio/2016.3.067/impi/5.1.3.210/intel64/lib/release_mt/libmpi.so.12 (0x00002ae6cb57d000)
libz.so.1 => /nfs/apps/Libraries/zlib/1.2.11/system/lib/libz.so.1 (0x00002ae6cbd4c000)
libmpifort.so.12 => /nfs/apps/Compilers/Intel/ParallelStudio/2016.3.067/impi/5.1.3.210/intel64/lib/libmpifort.so.12 (0x00002ae6cbf67000)
libdl.so.2 => /lib64/libdl.so.2 (0x00002ae6cc315000)
librt.so.1 => /lib64/librt.so.1 (0x00002ae6cc519000)
libpthread.so.0 => /lib64/libpthread.so.0 (0x00002ae6cc721000)
libm.so.6 => /lib64/libm.so.6 (0x00002ae6cc93e000)
libc.so.6 => /lib64/libc.so.6 (0x00002ae6ccc40000)
libgcc_s.so.1 => /nfs/apps/Compilers/GNU/6.5.0/lib64/libgcc_s.so.1 (0x00002ae6cd003000)
/lib64/ld-linux-x86-64.so.2 (0x0000558ea723a000)
นี่คือสคริปต์งานของฉัน
--mca
และได้รับข้อผิดพลาดunrecognized argument mca
ในกรณีของฉัน ฉันไม่ผ่านpmi_args
เป็นอาร์กิวเมนต์ และไม่รู้ว่ามันมาจากไหน - person SKPS   schedule 22.06.2020which mpirun
,which mpiexec
และldd /nfs/home/6/sanjeevis/dns/lb3d/src/lbe
เพื่อดูว่าไลบรารี MPI ใดถูกใช้และโดยใคร - person Gilles Gouaillardet   schedule 24.06.2020mpirun
มาจาก Open MPI, mpiexec น่าจะเป็น MPICH ในตัวจาก Paraview และแอปของคุณสร้างด้วย Intel MPI ลองใช้/nfs/apps/Compilers/Intel/ParallelStudio/2016.3.067/impi/5.1.3.210/bin/mpirun
(หรือ/nfs/apps/Compilers/Intel/ParallelStudio/2016.3.067/impi/5.1.3.210/bin64/mpirun
) แทน - person Gilles Gouaillardet   schedule 24.06.2020srun
คุณต้องexport I_MPI_PMI_LIBRARY=/path/to/slurm/pmi/library/libpmi.so
ก่อน - person Gilles Gouaillardet   schedule 24.06.2020mca
) ก่อนหน้านี้ฉันรู้สึกว่ามันซับซ้อนกว่าที่นี่ ข้อผิดพลาดpmi_args
ดูเหมือนเป็นเรื่องปกติแต่ไม่ได้แก้ไขโดยละเอียด ฉันจึงรู้สึกว่าการถามตอบนี้จะช่วยฟอรัมได้ - person SKPS   schedule 26.06.2020