Saya memiliki beberapa kode python yang melatih Jaringan Neural menggunakan tensorflow.
Saya telah membuat gambar buruh pelabuhan berdasarkan gambar tensorflow/tensorflow:latest-gpu-py3 yang menjalankan skrip python saya. Ketika saya memulai instance p2.xlarge EC2 saya dapat menjalankan kontainer buruh pelabuhan saya menggunakan perintah
docker run --runtime=nvidia cnn-userpattern train
dan wadah dengan kode saya berjalan tanpa kesalahan dan menggunakan GPU host.
Masalahnya adalah, ketika saya mencoba menjalankan wadah yang sama dalam tugas pelatihan AWS Sagemaker dengan instance ml.p2.xlarge (saya juga mencoba dengan ml.p3.2xlarge), algoritme gagal dengan kode kesalahan:
ImportError: libcuda.so.1: tidak dapat membuka file objek bersama: Tidak ada file atau direktori tersebut
Sekarang saya tahu apa arti kode kesalahan itu. Ini berarti lingkungan runtime dari host buruh pelabuhan tidak disetel ke "nvidia". Dokumentasi AWS mengatakan bahwa perintah yang digunakan untuk menjalankan image buruh pelabuhan adalah selalu
docker run image train
yang akan berfungsi jika runtime default disetel ke "nvidia" di docker/deamon.json. Apakah ada cara untuk mengedit host deamon.json atau memberitahu buruh pelabuhan di Dockerfile untuk menggunakan "--runtime=nvidia"?