Развернуть ИИ-модель за один день, не имея штата ML-инженеров

Какие сервисы позволяют запускать проекты в пару кликов и почему это идеальный сценарий для проверки гипотез.

Развернуть ИИ-модель за один день, не имея штата ML-инженеров

Материал подготовлен экспертами Cloud.ru — российского провайдера облачных сервисов и AI-технологий для бизнеса.

Содержание

Вычислительные ресурсы для AI

Ключевая операция в моделях искусственного интеллекта — перемножение матриц, что требует высокой пропускной способности видеопамяти. Чем быстрее осуществляется процесс, тем скорее проходит обучение и инференс модели. Скорость зависит от того, какой процессор вы выберете:

  • CPU, или центральный процессор, выполняет матричное умножение последовательно;
  • GPU, или графический процессор, выполняет его параллельно, и поэтому справляется в разы быстрее.

Аренда облачных виртуальных машин или выделенных серверов c GPU для многих компаний — доступный способ получить вычислительные ресурсы. Маленькие AI-модели до 1 млрд параметров, например BERT или Qwen3-0.6B, можно запустить локально на CPU, а средние Qwen3-8B или Gemma-3-4B до 8 млрд параметров — на потребительских GPU. Для больших моделей, таких как Qwen3-235B-A22B или GLM-4.6, нужны очень мощные и дорогостоящие графические процессоры. Например, сервер с восемью видеокартами NVIDIA H100 для таких моделей стоит 77 млн рублей.

Проще и дешевле получить GPU в облаке. Кроме инфраструктуры, в облаке есть готовые сервисы для работы с искусственным интеллектом: AI-модели с открытым кодом, настроенные окружения, готовые AI-агенты или агентские системы, RAG. Удобство в том, что облачный провайдер уже всё преднастроил, пользователю нужно только взять готовый сервис, и можно сразу начать с ним работать.

Рассказываем о том, как облачные технологии ускоряют внедрение AI- и ML-моделей в продукты и решения бизнеса.

Как меняется паттерн потребления облачных сервисов для работы с AI

Пользователем облака может быть кто угодно: от R&D-команд, обучающих ML-модели, до корпораций, которые внедряют искусственный интеллект в бизнес-процессы и решения. Одним нужны готовые платформенные сервисы для быстрого создания прототипов, другим — инфраструктура для продакшена.

Интерес R&D-команд к облаку находится на уровне инфраструктуры, то есть серверов с максимально гибкой настройкой под их задачи. Им надо обучить модель не за год, а за неделю, поэтому они идут в облако за GPU, которые там есть в достаточном количестве и разнообразии и которые они могут подключить в любой момент.

Выбор компании зависит от её уровня зрелости. Команды с глубокой экспертизой в AI тоже выбирают в первую очередь инфраструктуру, чтобы самостоятельно разворачивать на ней свои решения. Другим, не сильно погружённым в AI-разработку, проще работать с готовыми платформенными сервисами.

Что появилось раньше: готовые сервисы провайдеров для работы с AI или спрос на них — риторический вопрос. Возможно, это пришло с развитием таких моделей, как ChatGPT, к которым провайдеры начали предоставлять доступ по API. Рынку это понравилось, поэтому многие приходят в облако именно за готовыми сервисами.

GPU — базовый ресурс для AI

Для развёртывания, обучения и инференса моделей нужны GPU. Графические процессоры, ускорители, видеокарты — это всё они, только разными словами.

Чем GPU для AI отличаются от игровых видеокарт:

  • у них выше пропускная способность памяти (HBM3) — важный параметр с учётом интенсивных нагрузок при обучении моделей;
  • они поддерживают FP8 или FP4 — операции с такими типами данных совершаются значительно быстрее, а значит, выше и скорость инференса (а иногда и обучения) моделей;
  • у них улучшенная архитектура тензорных ядер CUDA, оптимизированных для параллельных вычислений в машинном и глубоком обучении;
  • их можно установить только в серверных стойках в дата-центрах, они не рассчитаны на установку в системных блоках домашних компьютеров.

AI-модели становятся сложнее: за 7 лет число параметров моделей выросло с 177 млн до 1,8 трлн, поэтому они требуют большего числа более мощных GPU (источник: Springer Nature)

* Meta — запрещённая в России организация.
* Meta — запрещённая в России организация.

Любой графический процессор для AI довольно быстро устаревает и теряет актуальность для сегодняшних задач. Он будет работать 5—7 лет, но со временем перестанет поддерживать новые форматы вычислений, а значит, не все модели на нём получится запустить.

GPU NVIDIA V100, например, раньше был флагманским ускорителем, на котором обучали топовые модели. И сегодня он ещё рабочий вариант, но уже без поддержки нужных форматов данных (FP8, BF16) и драйверов, а его 32 ГБ памяти не хватит для современных больших моделей.

Заранее рассчитать расход памяти графического процессора может быть сложно. Поэтому компании сталкиваются с ситуациями, когда модель не помещается или ресурс мощного GPU используется наполовину, если память выбрали с запасом.

В облаке достаточно большой выбор ускорителей и можно провести тест: запустить модель на потенциально интересном GPU, посчитать реальный расход и замерить производительность. А дальше уже перенести модель на графический процессор с достаточной мощностью, которая будет утилизироваться полностью.

Купить GPU для локальной инфраструктуры — значит разово полностью оплатить его владение. Тогда как при аренде графического процессора в облаке оплата начисляется за время его использования: месяцы, часы, минуты. И если раньше оплата взималась за весь период аренды GPU, то сейчас можно использовать ресурсы в serverless-режиме: когда модель простаивает, то уходит в сон, и оплата не начисляется. Когда поступают новые запросы, она автоматически запускается и начинается тарификация.

В облаке доступна оплата по токенам — вариант с полным отказом от GPU. В таком тарифе пользователь платит за количество токенов, отправляемых и генерируемых моделью, а не за саму видеокарту.

«В облаке обновление графических процессоров, отслеживание их состояния — зона ответственности провайдера. Пользователь выбирает GPU из списка разных моделей, и если мощность ему не подходит, то меняет графический процессор на другой за несколько кликов. В облаке ему не придётся беспокоиться о том, что инфраструктура устаревает, а проблема переплаты за неутилизированную мощность решается, например, через shared GPU, когда мощность одного процессора делится между несколькими пользователями».

Владимир Килязов, технический эксперт по машинному обучению в Cloud.ru

Сервисы для работы с AI в облачной среде

Инфраструктура для машинного обучения, обработки больших данных и работы с искусственным интеллектом есть у всех крупных облачных провайдеров. Условно её можно разделить на четыре группы:

  1. Выделенные серверы и виртуальные машины с GPU — для тех, кому нужна гибкая настройка.
  2. Платформенные сервисы для развёртывания, обучения и инференса своих и общедоступных моделей: каталог с преднастроенными LLM, API-доступ к фундаментальным моделям, управляемые RAG-системы (от англ. retrieval-augmented generation — «генерация с дополненной выборкой»), среды ML-разработки.
  3. Готовые SaaS-решения с AI, например платформы речевой аналитики, извлечения текста из документов.
  4. Платформы машинного обучения для полного цикла ML-разработки.

Раньше было больше внимания именно к инфраструктуре и ML-платформам, потому что компании чаще разрабатывали и обучали свои модели. Сейчас ситуация меняется: в open source можно найти качественные фундаментальные модели «из коробки». Многие стали использовать такие готовые модели, которые не надо обучать и которые предоставляют высокое качество работы на базовых задачах. Поэтому сегодня больше внимания идёт к платформенным сервисам.

  • Сервис для инференса ML-моделей с развёртыванием в виде API. Можно взять ML-модель из библиотеки Hugging Face и работать с ней в среде исполнения vLLM, Ollama, Diffusers. Сервис подходит для случаев, когда надо запустить модель в закрытом контуре.
  • API-доступ к фундаментальным моделям. Пользователь может скопировать endpoint (адрес сервиса, куда отправляется запрос) и свои ключи API, чтобы отправлять запросы к моделям и встраивать их в популярные инструменты и сервисы.
  • Управляемые RAG-системы на основе пользовательских данных. Сервис позволяет обогатить языковую модель без переобучения.
  • Среды разработки. Например, Jupyter для дата-сайентистов, ML-специалистов, Python-разработчиков. Можно подключать GPU или CPU, если нужно оптимизировать расходы на выполнение несложных задач. В сервисе доступны подготовленные образы, где уже установлены необходимые пакеты, библиотеки и разные UI-интерфейсы.

LLM as a Service: готовые языковые модели по токенам

LLM as a Service — это модель предоставления больших языковых моделей как онлайн-сервисов. Пользователь получает доступ к LLM в облаке по шаблону или API и оплачивает её по токенам.

Пользователь может развернуть языковую модель на виртуальной машине, но тогда придётся самому настраивать ВМ и сетевые правила, устанавливать образ, скачивать модель. А с сервисом по модели LLM as a Service он может развернуть модель за несколько кликов, не тратить время на настройку и платить не за инфраструктуру, а за объём использования модели.

LLM as a Service снижает время на разработку, даёт возможность быстро запустить модель и не закладывать бюджет на дорогостоящие вычислительные ресурсы — выгодный вариант для пилотных проектов и MVP (от англ. minimum viable product — «минимально жизнеспособный продукт»).

Развернуть ИИ-модель за один день, не имея штата ML-инженеров

Inference as a Service — простой запуск ML-моделей в проде

Inference as a Service — это преднастроенная выделенная инфраструктура, на которой модель для инференса запускается в готовом окружении. Пользователю не обязательно иметь глубокую экспертизу в AI: достаточно ввести ссылку на модель и её параметры, а установку драйверов, библиотек и пакетов сделает провайдер.

Допустим, компания запускает новый продукт с AI и ей нужно задеплоить модель в облаке. Сколько людей в моменте будут пользоваться продуктом, заранее достоверно неизвестно. Но есть понимание, что модель будет работать только днём. Если продукт не выстрелит, то через несколько месяцев модель будет не нужна.

С облачным сервисом по модели Inference as a Service компания получит:

  • автомасштабирование — продукт будет работать при любом числе пользователей;
  • режим serverless — не придётся платить за простой модели в ночное время;
  • возможность в любой момент удалить модель.

AI-помощник для управления облачной инфраструктурой

Некоторые облачные провайдеры не только предлагают сервисы для разработки AI-ассистентов, но и сами делают таких помощников, чтобы поддержать своих пользователей и снизить порог входа в облако. У зарубежных провайдеров такие есть уже давно, они многое умеют делать. В России на сегодняшний день AI-помощника может предложить только пара провайдеров.

Базовая цель AI-помощника — упростить начинающим пользователям работу в облаке: быстро ответить на вопрос, проанализировать ситуацию с ресурсами, управлять инфраструктурой. Например, пользователь затрудняется с выбором конфигурации виртуальной машины. Помощник подберёт несколько вариантов под задачу, покажет стоимость, предложит оптимальный вариант и запустит ВМ в работу.

В отличие от чат-бота, который работает по заранее написанным сценариям, умный помощник понимает контекст и сам собирает ответы на вопросы, а не берёт готовые из базы.

«Мы замеряли время и количество ошибок, которые совершают пользователи без AI-помощника и с ним. Самый заметный эффект — в создании виртуальной машины: обычно процесс занимает 15—30 минут, с помощником — 1—2 минуты. В среднем он ускоряет рутинные операции в 15 раз».

Никита Кострикин, product owner в Cloud.ru

Кто защитит данные при их передаче AI-модели

Защита конфиденциальных данных, которые использует модель, — это ответственность на двоих. Провайдер отвечает за физическую инфраструктуру, каналы связи, интернет-соединения, доступы. Важно, чтобы облако отвечало требованиям 152-ФЗ «О персональных данных» и приказа №21 ФСТЭК России. Пользователь же обязан самостоятельно следить за настройкой ролевой модели и AI-сервисов, шифрованием и обезличиванием обрабатываемых данных, управлением API-ключа и токенов.

Выбирая облачного провайдера, важно убедиться в том, что он не логирует запросы к модели без ведома пользователя, не хранит пользовательскую информацию и не использует её для обучения моделей.

Основные рекомендации по настройке безопасности при работе с AI-сервисами в облаке

  1. Контролируйте доступ к консоли управления, чтобы только авторизованные пользователи могли управлять данными и сервисами.
  2. Обеспечьте защиту API-ключей, чтобы передавать секреты только уполномоченным приложениям и пользователям.
  3. Проводите мониторинг и аудит безопасности, чтобы своевременно выявлять и реагировать на подозрительные действия и потенциальные угрозы.
  4. Управляйте конфиденциальностью данных, чтобы противодействовать распространению закрытой информации через запросы в модель.
  5. Отслеживайте пользовательские запросы и выводы, чтобы исключить вредоносные промпты и валидировать ответы модели.
  6. Введите инвентаризацию цифровых активов, чтобы учитывать все наборы данных, моделей, метаданных, логов.
  7. Оценивайте риски сторонних библиотек, чтобы исключить возможные угрозы от поставщиков.

Кейсы

Компании из разных сфер уже используют AI в рекламе и работе с клиентами. Одни встраивают готовые AI-сервисы, другие разворачивают в облаке модели и затем внедряют их в свои продукты.

  • Торговая сеть «Пятёрочка» сэкономила четверть бюджета на рекламу, использовав AI-дублёра популярной актрисы. Двойника создали в облаке: за основу взяли open source модель DeepFaceLab, доработали её под задачу, дообучили на фотографиях артистки, а после съёмок рекламы заменили лицо дублёра на лицо селебрити. В итоге получилось сократить затраты на привлечение звезды и ускорить видеопроизводство.
  • Разработчик «Жива Технологии» арендовал в облаке виртуальные машины с GPU для своего приложения JIVA — ассистента для поддержки здорового образа жизни. Ядро приложения — искусственный интеллект: модели для распознавания нутриентов по фото, встроенный ассистент на базе LLM, каскад моделей по детекции и распознаванию физических упражнений. Обучение и инференс этих моделей происходили в облаке.
  • Новосибирский государственный университет разместил в облаке умного чат-бота на базе большой языковой модели. Сотрудники вуза самостоятельно развернули виртуальную машину с GPU, настроили окружение, перенесли и развернули проект. Теперь абитуриенты, студенты и сотрудники университета получают ответ на свой запрос за секунды.

Чек-лист для бизнеса: как оценить облачного провайдера

В первую очередь клиенты сравнивают цены облачных провайдеров, разнообразие сервисов, удобство консоли управления.

На что ещё обратить внимание, если облако нужно для работы с AI:

  • разнообразие GPU — чем шире выбор, тем больше шансов подобрать подходящий тип ускорителя;
  • доступ к большому числу готовых моделей;
  • OpenAI-совместимое API для подключения модели в нужные инструменты: VS Code, Open WebUI, фреймворки;
  • провайдер не сохраняет пользовательские запросы и не дообучает ими свои модели (обычно это указано в юридических документах облачного провайдера);
  • поддержка Function Calling для вызова функций на стороне бэкенда;
  • возможность обращения к сервису инференса через приватный канал;
  • круглосуточная бесплатная поддержка.

Вместо заключения

Облако — выигрышный вариант, если надо сократить капитальные затраты на инфраструктуру, быстро получить ресурсы и не зависеть от экспертизы своей команды в AI. Но у него есть ограничения: здесь сложно запустить самописные сервисы, а из-за удалённости дата-центров оно может не подойти для edge-вычислений, когда модель должна отвечать максимально быстро.

Во всех остальных случаях любая команда найдёт в облаке всё необходимое для работы с AI:

  • инфраструктуру, ML-платформы, платформенные сервисы;
  • готовые сервисы для доступа к большим языковым моделям (LLM as a Service) и запуска инфересна (Inference as a Service);
  • поддержку 24/7 — AI-ассистент отвечает на вопросы и помогает управлять инфраструктурой.

А ваша компания использует облака для работы с AI? Делитесь в комментариях, какие сервисы эффективны для ваших задач.

27
4
1
11 комментариев