В этом разделе приведены примеры создания и отправки задач для обучения моделей в ML Space. Примеры построены так, что для запуска их достаточно загрузить на платформу.
Схема дает представление о доступных способах обучения модели. На ней примеры сгруппированы по инструментам для обучения. Ниже находятся ссылки на каждый пример для Jupyter Notebook с кратким описанием.
Использование Training Job API здесь не рассматривается. Подробнее об API ML Space, в том числе для задач обучения — в быстром старте по API и пользовательской документации.
При таком варианте обучения максимальное количество выделенных GPU — 16. Подходит для пользователей, не знакомых с библиотекой Horovod.
Оплата взимается, пока Jupyter Server не будет удален, даже если он не используется.
-
Обучение модели в Jupyter Server показывает, как обучать модель напрямую из Jupyter Notebook, подключенного к GPU, задействуя
Pytorch
,Tensorboard
иMLFlow
.В примере решается задача классификации на учебном датасете MNIST.
Подробнее о создании Jupyter Server — в документации.
При таком варианте обучения можно задействовать до 1000 GPU. Оплата происходит за фактическое время исполнения задачи: от старта до окончания обучения.
-
Обучение модели на GPU с применением PyTorch показывает, как создать и запустить задачу распределенного обучения (training job) с помощью
pytorch.distributed
иPyTorch 2
.В примере решается задача классификации на учебном датасете MNIST.
-
Обучение модели на GPU с применением Tensorflow 2 показывает, как создать и запустить задачу распределенного обучения (training job) на
Keras
,Horovod
иTensorFlow 2
.В примере решается задача классификации на учебном датасете MNIST.
Рассмотрено сохранение контрольных точек обучения (чекпоинтов).
-
Обучение модели на CPU показывает, как создать и запустить задачу, не требующую GPU.
В примере решается задача предсказания цен домов.
Дополнительные примеры обучения моделей под разные задачи:
- pytorch-example — задача распределенного обучения Pytorch-модели с двумя типами запуска: стандартный
horovod
и дополнительныйpytorch
, он жеPytorch.Distributed
. - hugging-face-llm-example — работа с языковой моделью методами LoRA и PEFT, а также распределенное обучение с PyTorch Distributed Data Parallel (DDP).
- lightning-example — использование PyTorch и PyTorch Lightning для задачи классификации изображений.
- pytorch-elastic-example — обучение модели на PyTorch и Elastic Learning с сохранением контрольных точек обучения (чекпоинтов).
Подробнее о работе с client_lib
— в документации.