Skip to content

Latest commit

 

History

History

quick-start

Знакомство с платформой ML Space от Cloud.ru

В этом разделе приведены примеры создания и отправки задач для обучения моделей в ML Space. Примеры построены так, что для запуска их достаточно загрузить на платформу.

Схема дает представление о доступных способах обучения модели. На ней примеры сгруппированы по инструментам для обучения. Ниже находятся ссылки на каждый пример для Jupyter Notebook с кратким описанием.

Использование Training Job API здесь не рассматривается. Подробнее об API ML Space, в том числе для задач обучения — в быстром старте по API и пользовательской документации.

1. Обучение напрямую на выделенных GPU

При таком варианте обучения максимальное количество выделенных GPU — 16. Подходит для пользователей, не знакомых с библиотекой Horovod.

Оплата взимается, пока Jupyter Server не будет удален, даже если он не используется.

  • Обучение модели в Jupyter Server показывает, как обучать модель напрямую из Jupyter Notebook, подключенного к GPU, задействуя Pytorch, Tensorboard и MLFlow.

    В примере решается задача классификации на учебном датасете MNIST.

Подробнее о создании Jupyter Server — в документации.

2. Обучение в регионе с помощью client_lib

При таком варианте обучения можно задействовать до 1000 GPU. Оплата происходит за фактическое время исполнения задачи: от старта до окончания обучения.

  • Обучение модели на GPU с применением PyTorch показывает, как создать и запустить задачу распределенного обучения (training job) с помощью pytorch.distributed и PyTorch 2.

    В примере решается задача классификации на учебном датасете MNIST.

  • Обучение модели на GPU с применением Tensorflow 2 показывает, как создать и запустить задачу распределенного обучения (training job) на Keras, Horovod и TensorFlow 2.

    В примере решается задача классификации на учебном датасете MNIST.

    Рассмотрено сохранение контрольных точек обучения (чекпоинтов).

  • Обучение модели на CPU показывает, как создать и запустить задачу, не требующую GPU.

    В примере решается задача предсказания цен домов.

3. Другие примеры обучения моделей

Дополнительные примеры обучения моделей под разные задачи:

  • pytorch-example — задача распределенного обучения Pytorch-модели с двумя типами запуска: стандартный horovod и дополнительный pytorch, он же Pytorch.Distributed.
  • hugging-face-llm-example — работа с языковой моделью методами LoRA и PEFT, а также распределенное обучение с PyTorch Distributed Data Parallel (DDP).
  • lightning-example — использование PyTorch и PyTorch Lightning для задачи классификации изображений.
  • pytorch-elastic-example — обучение модели на PyTorch и Elastic Learning с сохранением контрольных точек обучения (чекпоинтов).

Подробнее о работе с client_lib — в документации.