В данном примере показано, как можно писать скрипты для распределенного обучения Pytorch
модели с использованием одной из двух библиотек:
Обратите внимание на параметр запуска type
в client_lib.Job
и его возможные значения:
type="horovod"
для запуска обучения с использованием библиотекиHorovod
.type="pytorch"
для запуска обучения с использованиемDistributedDataParallel
иPytorch
.
Для запуска примера создайте или подключитесь к уже существующему Jupyter Server.
После подключения к Jupyter Server необходимо загрузить файлы через веб-интерфейс Jupyter Server внутри ML Space:
- pytorch_example.ipynb (отправка задач на суперкомпьютер Christofari).
- train_distributed_example.py (распределенное обучение с использованием
DistributedDataParallel
из библиотекиPytorch.distributed
) - train_horovod_example.py (распределенное обучение с использованием бибилотеки
Horovod
)
Для запуска и отладки скриптов из-под Jupyter Notebook:
Выберите один из образов с пометкой horovod (прим. jupyter-horovod-tf15)
Запуск с Horovod:
mpirun -np {GPU count} python train_horovod_example.py
Запуск с Pytorch.distributed:
python -m torch.distributed.launch --nproc_per_node {GPU count} train_distributed_example.py