НАЧАЛ ПОГРУЖАТЬСЯ В СЕРВИС Yandex DataSphere

Начал погружаться в сервис Yandex DataSphere - это сервис для ML-разработки с удобным интерфейсом, в котором легко начать работу.
В DataSphere есть все необходимые инструменты и динамически масштабируемые облачные ресурсы для полного цикла разработки машинного обучения.

🧑‍🎓 Стало это необходимым, чтобы обучить модель YandexGPT под собственные нужды и интегрировать в телеграм чат для пользователей MarketDB, которая будет отвечать на часто задаваемые или другие вопросы согласно документации сервиса MarketDB.
Но начать работу с сервисом оказалось не так просто. Дело в том, что это, разумеется, не бесплатно. У сервиса есть документация, как рассчитать стоимость, но столько текста и тонкостей. Начиная от ресурсов, выделяемых для модели, заканчивая временем работы. Продолжаю разбираться сам, но параллельно обратился в тех. поддержку, думаю у них больше компетенций для этого.

Еще есть две разные концепции DataSphere Notebook и DataSphere Inference. Или это не концепции 🤯

Есть три сервиса:
- DataSphere Notebook - вычисления, обучение и прочие ML приколы. Позволяет запускать вычисления на ВМ как на локальном ноутбуке JupyterLab. DataSphere Notebook предоставляет выбранную конфигурацию в долгосрочное использование и закрепляет ВМ за ноутбуком проекта до тех пор, пока вы принудительно не вернете ее в пул свободных виртуальных машин, или по истечении тайм-аута.;
- DataSphere Jobs - удаленно запускать задания. Задания создаются и выполняются в проектах, но не зависят от DataSphere Notebook и запущенных ВМ проекта;
- DataSphere Inference - предоставляет инструменты для релиза сервисов, доступных для сторонних ресурсов. Вы можете развернуть для эксплуатации не только модель, обученную в DataSphere, но и создать при помощи тех же инструментов полноценный работающий сервис на базе Docker-образа.

У каждого своя тарификация.

Если я правильно все понимаю, то для старта, хотя бы просто изучить и понять как это работает, достаточно DataSphere Notebook.
И тут, к небольшому сожалению для меня, появляется Python, который я не очень люблю, но выбора нет. Если я хочу погрузиться в ML, а я хочу, то разобраться придется.

Так вот, по тарификациям. Кажется, разобрался.

При работе с платформой DataSphere вы платите за использование вычислительных ресурсов — посекундно тарифицируется время вычисления или работы инстансов. Единица тарификации — это один тарифицирующий юнит.

Количество Цена за 1 секунду расчета
Один юнит 0,0012 ₽

Ресурсы предлагают они в большом количестве, но начнем с малого, тем более у нас и задачи простые.
Конфигурация Количество юнитов в конфигурации Цена за 1 секунду вычислений
c1.4 (4 vCPU, 0 GPU) 4 0,0048 ₽

Хранение данных внутри DataSphere:

Ресурс Цена за 1 ГБ в месяц
Объем хранилища проекта, до 10 ГБ Не тарифицируется
(Думаю нам хватит до 10)

Примеры расчета стоимости
DataSphere Notebook
Стоимость использования DataSphere со следующими параметрами:

Вычислительные ресурсы: конфигурация с1.1 с 4 CPU и 0 GPU.
Время использования ВМ: 15 мин. (тут вообще неизвестно сколько по времени, предположим, что 15 минут хватит)

Расчет стоимости:
4 × 900 = 3 600 юнитов за использование ВМ
43 200 × 0,0012 = 4,32 ₽

Итого: 4,32 ₽ — стоимость использования DataSphere.

Где:
4 — количество юнитов за конфигурацию с1.4.
900 — время использования ВМ в секундах.
0,0012 ₽ — стоимость 1 юнита.

Далеко не уверен в оптимальности выбранных ресурсов. Насколько мне известно, для обучения ML моделей лучше подходит GPU, чем CPU, но может здесь по-другому. В общем, буду погружаться.

Начать дискуссию