Развернуть ИИ-модель за один день, не имея штата ML-инженеров
Какие сервисы позволяют запускать проекты в пару кликов и почему это идеальный сценарий для проверки гипотез.
Материал подготовлен экспертами Cloud.ru — российского провайдера облачных сервисов и AI-технологий для бизнеса.
Содержание
- Вычислительные ресурсы для AI
- Как меняется паттерн потребления облачных сервисов для работы с AI
- GPU — базовый ресурс для AI
- Сервисы для работы с AI в облачной среде
- LLM as a Service: готовые языковые модели по токенам
- Inference as a Service — простой запуск ML-моделей в проде
- AI-помощник для управления облачной инфраструктурой
- Кто защитит данные при их передаче AI-модели
- Кейсы
- Чек-лист для бизнеса: как оценить облачного провайдера
Вычислительные ресурсы для AI
Ключевая операция в моделях искусственного интеллекта — перемножение матриц, что требует высокой пропускной способности видеопамяти. Чем быстрее осуществляется процесс, тем скорее проходит обучение и инференс модели. Скорость зависит от того, какой процессор вы выберете:
- CPU, или центральный процессор, выполняет матричное умножение последовательно;
- GPU, или графический процессор, выполняет его параллельно, и поэтому справляется в разы быстрее.
Аренда облачных виртуальных машин или выделенных серверов c GPU для многих компаний — доступный способ получить вычислительные ресурсы. Маленькие AI-модели до 1 млрд параметров, например BERT или Qwen3-0.6B, можно запустить локально на CPU, а средние Qwen3-8B или Gemma-3-4B до 8 млрд параметров — на потребительских GPU. Для больших моделей, таких как Qwen3-235B-A22B или GLM-4.6, нужны очень мощные и дорогостоящие графические процессоры. Например, сервер с восемью видеокартами NVIDIA H100 для таких моделей стоит 77 млн рублей.
Проще и дешевле получить GPU в облаке. Кроме инфраструктуры, в облаке есть готовые сервисы для работы с искусственным интеллектом: AI-модели с открытым кодом, настроенные окружения, готовые AI-агенты или агентские системы, RAG. Удобство в том, что облачный провайдер уже всё преднастроил, пользователю нужно только взять готовый сервис, и можно сразу начать с ним работать.
Рассказываем о том, как облачные технологии ускоряют внедрение AI- и ML-моделей в продукты и решения бизнеса.
Как меняется паттерн потребления облачных сервисов для работы с AI
Пользователем облака может быть кто угодно: от R&D-команд, обучающих ML-модели, до корпораций, которые внедряют искусственный интеллект в бизнес-процессы и решения. Одним нужны готовые платформенные сервисы для быстрого создания прототипов, другим — инфраструктура для продакшена.
Интерес R&D-команд к облаку находится на уровне инфраструктуры, то есть серверов с максимально гибкой настройкой под их задачи. Им надо обучить модель не за год, а за неделю, поэтому они идут в облако за GPU, которые там есть в достаточном количестве и разнообразии и которые они могут подключить в любой момент.
Выбор компании зависит от её уровня зрелости. Команды с глубокой экспертизой в AI тоже выбирают в первую очередь инфраструктуру, чтобы самостоятельно разворачивать на ней свои решения. Другим, не сильно погружённым в AI-разработку, проще работать с готовыми платформенными сервисами.
Что появилось раньше: готовые сервисы провайдеров для работы с AI или спрос на них — риторический вопрос. Возможно, это пришло с развитием таких моделей, как ChatGPT, к которым провайдеры начали предоставлять доступ по API. Рынку это понравилось, поэтому многие приходят в облако именно за готовыми сервисами.
GPU — базовый ресурс для AI
Для развёртывания, обучения и инференса моделей нужны GPU. Графические процессоры, ускорители, видеокарты — это всё они, только разными словами.
Чем GPU для AI отличаются от игровых видеокарт:
- у них выше пропускная способность памяти (HBM3) — важный параметр с учётом интенсивных нагрузок при обучении моделей;
- они поддерживают FP8 или FP4 — операции с такими типами данных совершаются значительно быстрее, а значит, выше и скорость инференса (а иногда и обучения) моделей;
- у них улучшенная архитектура тензорных ядер CUDA, оптимизированных для параллельных вычислений в машинном и глубоком обучении;
- их можно установить только в серверных стойках в дата-центрах, они не рассчитаны на установку в системных блоках домашних компьютеров.
AI-модели становятся сложнее: за 7 лет число параметров моделей выросло с 177 млн до 1,8 трлн, поэтому они требуют большего числа более мощных GPU (источник: Springer Nature)
Любой графический процессор для AI довольно быстро устаревает и теряет актуальность для сегодняшних задач. Он будет работать 5—7 лет, но со временем перестанет поддерживать новые форматы вычислений, а значит, не все модели на нём получится запустить.
GPU NVIDIA V100, например, раньше был флагманским ускорителем, на котором обучали топовые модели. И сегодня он ещё рабочий вариант, но уже без поддержки нужных форматов данных (FP8, BF16) и драйверов, а его 32 ГБ памяти не хватит для современных больших моделей.
Заранее рассчитать расход памяти графического процессора может быть сложно. Поэтому компании сталкиваются с ситуациями, когда модель не помещается или ресурс мощного GPU используется наполовину, если память выбрали с запасом.
В облаке достаточно большой выбор ускорителей и можно провести тест: запустить модель на потенциально интересном GPU, посчитать реальный расход и замерить производительность. А дальше уже перенести модель на графический процессор с достаточной мощностью, которая будет утилизироваться полностью.
Купить GPU для локальной инфраструктуры — значит разово полностью оплатить его владение. Тогда как при аренде графического процессора в облаке оплата начисляется за время его использования: месяцы, часы, минуты. И если раньше оплата взималась за весь период аренды GPU, то сейчас можно использовать ресурсы в serverless-режиме: когда модель простаивает, то уходит в сон, и оплата не начисляется. Когда поступают новые запросы, она автоматически запускается и начинается тарификация.
В облаке доступна оплата по токенам — вариант с полным отказом от GPU. В таком тарифе пользователь платит за количество токенов, отправляемых и генерируемых моделью, а не за саму видеокарту.
«В облаке обновление графических процессоров, отслеживание их состояния — зона ответственности провайдера. Пользователь выбирает GPU из списка разных моделей, и если мощность ему не подходит, то меняет графический процессор на другой за несколько кликов. В облаке ему не придётся беспокоиться о том, что инфраструктура устаревает, а проблема переплаты за неутилизированную мощность решается, например, через shared GPU, когда мощность одного процессора делится между несколькими пользователями».
Сервисы для работы с AI в облачной среде
Инфраструктура для машинного обучения, обработки больших данных и работы с искусственным интеллектом есть у всех крупных облачных провайдеров. Условно её можно разделить на четыре группы:
- Выделенные серверы и виртуальные машины с GPU — для тех, кому нужна гибкая настройка.
- Платформенные сервисы для развёртывания, обучения и инференса своих и общедоступных моделей: каталог с преднастроенными LLM, API-доступ к фундаментальным моделям, управляемые RAG-системы (от англ. retrieval-augmented generation — «генерация с дополненной выборкой»), среды ML-разработки.
- Готовые SaaS-решения с AI, например платформы речевой аналитики, извлечения текста из документов.
- Платформы машинного обучения для полного цикла ML-разработки.
Раньше было больше внимания именно к инфраструктуре и ML-платформам, потому что компании чаще разрабатывали и обучали свои модели. Сейчас ситуация меняется: в open source можно найти качественные фундаментальные модели «из коробки». Многие стали использовать такие готовые модели, которые не надо обучать и которые предоставляют высокое качество работы на базовых задачах. Поэтому сегодня больше внимания идёт к платформенным сервисам.
- Сервис для инференса ML-моделей с развёртыванием в виде API. Можно взять ML-модель из библиотеки Hugging Face и работать с ней в среде исполнения vLLM, Ollama, Diffusers. Сервис подходит для случаев, когда надо запустить модель в закрытом контуре.
- API-доступ к фундаментальным моделям. Пользователь может скопировать endpoint (адрес сервиса, куда отправляется запрос) и свои ключи API, чтобы отправлять запросы к моделям и встраивать их в популярные инструменты и сервисы.
- Управляемые RAG-системы на основе пользовательских данных. Сервис позволяет обогатить языковую модель без переобучения.
- Среды разработки. Например, Jupyter для дата-сайентистов, ML-специалистов, Python-разработчиков. Можно подключать GPU или CPU, если нужно оптимизировать расходы на выполнение несложных задач. В сервисе доступны подготовленные образы, где уже установлены необходимые пакеты, библиотеки и разные UI-интерфейсы.
LLM as a Service: готовые языковые модели по токенам
LLM as a Service — это модель предоставления больших языковых моделей как онлайн-сервисов. Пользователь получает доступ к LLM в облаке по шаблону или API и оплачивает её по токенам.
Пользователь может развернуть языковую модель на виртуальной машине, но тогда придётся самому настраивать ВМ и сетевые правила, устанавливать образ, скачивать модель. А с сервисом по модели LLM as a Service он может развернуть модель за несколько кликов, не тратить время на настройку и платить не за инфраструктуру, а за объём использования модели.
LLM as a Service снижает время на разработку, даёт возможность быстро запустить модель и не закладывать бюджет на дорогостоящие вычислительные ресурсы — выгодный вариант для пилотных проектов и MVP (от англ. minimum viable product — «минимально жизнеспособный продукт»).
Inference as a Service — простой запуск ML-моделей в проде
Inference as a Service — это преднастроенная выделенная инфраструктура, на которой модель для инференса запускается в готовом окружении. Пользователю не обязательно иметь глубокую экспертизу в AI: достаточно ввести ссылку на модель и её параметры, а установку драйверов, библиотек и пакетов сделает провайдер.
Допустим, компания запускает новый продукт с AI и ей нужно задеплоить модель в облаке. Сколько людей в моменте будут пользоваться продуктом, заранее достоверно неизвестно. Но есть понимание, что модель будет работать только днём. Если продукт не выстрелит, то через несколько месяцев модель будет не нужна.
С облачным сервисом по модели Inference as a Service компания получит:
- автомасштабирование — продукт будет работать при любом числе пользователей;
- режим serverless — не придётся платить за простой модели в ночное время;
- возможность в любой момент удалить модель.
AI-помощник для управления облачной инфраструктурой
Некоторые облачные провайдеры не только предлагают сервисы для разработки AI-ассистентов, но и сами делают таких помощников, чтобы поддержать своих пользователей и снизить порог входа в облако. У зарубежных провайдеров такие есть уже давно, они многое умеют делать. В России на сегодняшний день AI-помощника может предложить только пара провайдеров.
Базовая цель AI-помощника — упростить начинающим пользователям работу в облаке: быстро ответить на вопрос, проанализировать ситуацию с ресурсами, управлять инфраструктурой. Например, пользователь затрудняется с выбором конфигурации виртуальной машины. Помощник подберёт несколько вариантов под задачу, покажет стоимость, предложит оптимальный вариант и запустит ВМ в работу.
В отличие от чат-бота, который работает по заранее написанным сценариям, умный помощник понимает контекст и сам собирает ответы на вопросы, а не берёт готовые из базы.
«Мы замеряли время и количество ошибок, которые совершают пользователи без AI-помощника и с ним. Самый заметный эффект — в создании виртуальной машины: обычно процесс занимает 15—30 минут, с помощником — 1—2 минуты. В среднем он ускоряет рутинные операции в 15 раз».
Кто защитит данные при их передаче AI-модели
Защита конфиденциальных данных, которые использует модель, — это ответственность на двоих. Провайдер отвечает за физическую инфраструктуру, каналы связи, интернет-соединения, доступы. Важно, чтобы облако отвечало требованиям 152-ФЗ «О персональных данных» и приказа №21 ФСТЭК России. Пользователь же обязан самостоятельно следить за настройкой ролевой модели и AI-сервисов, шифрованием и обезличиванием обрабатываемых данных, управлением API-ключа и токенов.
Выбирая облачного провайдера, важно убедиться в том, что он не логирует запросы к модели без ведома пользователя, не хранит пользовательскую информацию и не использует её для обучения моделей.
Основные рекомендации по настройке безопасности при работе с AI-сервисами в облаке
- Контролируйте доступ к консоли управления, чтобы только авторизованные пользователи могли управлять данными и сервисами.
- Обеспечьте защиту API-ключей, чтобы передавать секреты только уполномоченным приложениям и пользователям.
- Проводите мониторинг и аудит безопасности, чтобы своевременно выявлять и реагировать на подозрительные действия и потенциальные угрозы.
- Управляйте конфиденциальностью данных, чтобы противодействовать распространению закрытой информации через запросы в модель.
- Отслеживайте пользовательские запросы и выводы, чтобы исключить вредоносные промпты и валидировать ответы модели.
- Введите инвентаризацию цифровых активов, чтобы учитывать все наборы данных, моделей, метаданных, логов.
- Оценивайте риски сторонних библиотек, чтобы исключить возможные угрозы от поставщиков.
Кейсы
Компании из разных сфер уже используют AI в рекламе и работе с клиентами. Одни встраивают готовые AI-сервисы, другие разворачивают в облаке модели и затем внедряют их в свои продукты.
- Торговая сеть «Пятёрочка» сэкономила четверть бюджета на рекламу, использовав AI-дублёра популярной актрисы. Двойника создали в облаке: за основу взяли open source модель DeepFaceLab, доработали её под задачу, дообучили на фотографиях артистки, а после съёмок рекламы заменили лицо дублёра на лицо селебрити. В итоге получилось сократить затраты на привлечение звезды и ускорить видеопроизводство.
- Разработчик «Жива Технологии» арендовал в облаке виртуальные машины с GPU для своего приложения JIVA — ассистента для поддержки здорового образа жизни. Ядро приложения — искусственный интеллект: модели для распознавания нутриентов по фото, встроенный ассистент на базе LLM, каскад моделей по детекции и распознаванию физических упражнений. Обучение и инференс этих моделей происходили в облаке.
- Новосибирский государственный университет разместил в облаке умного чат-бота на базе большой языковой модели. Сотрудники вуза самостоятельно развернули виртуальную машину с GPU, настроили окружение, перенесли и развернули проект. Теперь абитуриенты, студенты и сотрудники университета получают ответ на свой запрос за секунды.
Чек-лист для бизнеса: как оценить облачного провайдера
В первую очередь клиенты сравнивают цены облачных провайдеров, разнообразие сервисов, удобство консоли управления.
На что ещё обратить внимание, если облако нужно для работы с AI:
- разнообразие GPU — чем шире выбор, тем больше шансов подобрать подходящий тип ускорителя;
- доступ к большому числу готовых моделей;
- OpenAI-совместимое API для подключения модели в нужные инструменты: VS Code, Open WebUI, фреймворки;
- провайдер не сохраняет пользовательские запросы и не дообучает ими свои модели (обычно это указано в юридических документах облачного провайдера);
- поддержка Function Calling для вызова функций на стороне бэкенда;
- возможность обращения к сервису инференса через приватный канал;
- круглосуточная бесплатная поддержка.
Больше по теме на СберПро:
• Облака и AI: как компании создают инфраструктуру для роста и гибкости• Бизнес на подписке. Почему модель XaaS в числе самых перспективных российских ИТ-трендов
• Как не потеряться в облаках. Особенности внедрения cloud-решений в компании
Вместо заключения
Облако — выигрышный вариант, если надо сократить капитальные затраты на инфраструктуру, быстро получить ресурсы и не зависеть от экспертизы своей команды в AI. Но у него есть ограничения: здесь сложно запустить самописные сервисы, а из-за удалённости дата-центров оно может не подойти для edge-вычислений, когда модель должна отвечать максимально быстро.
Во всех остальных случаях любая команда найдёт в облаке всё необходимое для работы с AI:
- инфраструктуру, ML-платформы, платформенные сервисы;
- готовые сервисы для доступа к большим языковым моделям (LLM as a Service) и запуска инфересна (Inference as a Service);
- поддержку 24/7 — AI-ассистент отвечает на вопросы и помогает управлять инфраструктурой.
А ваша компания использует облака для работы с AI? Делитесь в комментариях, какие сервисы эффективны для ваших задач.