Где обучать нейросети? Основатели AI-сервиса Recap Meetings рассказали о тестировании на платформе HPC Park

Индустрия сервисов на базе искусственного интеллекта в России, как и во всем мире, активно развивается, и в этой сфере появились интересные, уникальные разработки. Как пример, сервис речевой аналитики Recap Meetings, работающий на базе собственного ИИ, провел тестирование на платформе HPC Park, созданной для обучения нейронных сетей. Ключевые участники проекта – Максим Дудкин, основатель компании HPC Park и Андрей Селихов, директор по развитию компании HPC Park, основатели Recap Meetings Алексей Зеленцов и Максимелиан Мумладзе - поделились деталями о работе своих платформ, об основных этапах тестирования, полученных результатах и планах.

Где обучать нейросети? Основатели AI-сервиса Recap Meetings рассказали о тестировании на платформе HPC Park

«В 2023 году мы выпустили обновление нашей облачной платформы с GPU ускорителями для высокопроизводительных вычислений – с новым интерфейсом и функционалом, и предложили протестировать её компаниям-партнерам. Тестирование показало отличные результаты, а GPU-платформа в очередной раз подтвердила свой статус эффективного решения для обучения нейросетей» – отметил ключевые моменты сотрудничества Максим Дудкин, HPC Park.

Все о GPU платформе

Команда платформы имеет большой опыт в работе с высокопроизводительными вычислениями и суперкомпьютерами и, в соответствии с трендами ИТ-рынка, предлагает актуальные решения. За свою историю компания интегрировала более десятка высоконагруженных кластеров, вошла в рейтинг TOP-50 Суперкомпьютеров СНГ, и в 2021 году представила свою специализированную облачную платформу для обучения и инференса AI. В HPC Park ставили целью сделать услугу «GPU As a Service» в России, как альтернативу AWS и Azure с достаточным функционалом для полноценного решения задач. В отличие от зарубежных аналогов, новая платформа отличается простотой – не требуется профильный специалист в штат, здесь нет перегруженного интерфейса и большого количества ненужных опций.

Созданная платформа – важное звено в обучении моделей нейросетей искусственного интеллекта. Это значимый элемент процесса ML-ops (практика объединения процессов машинного обучения и операционной деятельности для обеспечения разработки, развертывания и управления моделями машинного обучения в продакшене). Пользователь загружает на платформу подготовленные данные (датасет), собирает окружение на базе готовых образов, далее обучает модель на платформе, и, по желанию, запускает её в эксплуатацию на своих ресурсах или ресурсах платформы.

Функционал платформы востребован во многих сегментах:

  • Обучение моделей нейронных сетей: обработка фото и видео, распознавание лиц, машинный перевод и синтез речи, предиктивная аналитика и контроль;
  • Научные вычисления, специальные индустриальные приложения;
  • Продвинутая аналитика и обработка данных (Data Science/Big Data).

Крупные компании используют платформу при краткосрочных всплесках запросов на вычислительные ресурсы, когда нецелесообразно покрывать их собственным оборудованием. А также для тестирования гипотез и для инференса. В целом, к платформе обращаются во всех случаях, когда возможно использование облака как основного ресурса или в дополнение к своей собственной инфраструктуре. А для стартапов платформа стала отличным инструментом для обучения собственных нейронных сетей, создания новых сервисов с применением ИИ.

Уникальные решения

Андрей Селихов, HPC Park: «HPC Park Cloud Service – платформа на базе Docker-контейнеров, с помощью которых можно решать сложные задачи в сфере обработки больших данных, машинного обучения и искусственного интеллекта. Нам всегда хотелось, чтобы пользователи – специалисты в области ML и Big Data, могли быстро приступить к работе в привычной им среде. С момента запуска платформы в 2021 году, мы предоставляем контейнеры с готовым программным окружением и популярными фреймворками для ML: PyTorch, Tensorflow.

Кроме того, в наши последние релизы был добавлен минимальный CUDA-образ – это минимальное окружение без установленных фреймворков, которое может быть легко дополнено любым удобным программным окружением. Также мы добавили подключение сетевого хранилища и переключение его между контейнерами, что позволило объединять контейнеры в сеть для горизонтального масштабирования.

Ранее для сохранения состояния контейнера мы использовали Harbor Container Registry, но так как сохранение состояния контейнера и передача его по сети занимала непозволительно большой промежуток времени, что отражалось на качестве клиентского сервиса, мы решили выбрать другой механизм. Сейчас сохранение состояния контейнера работает через монтирование томов Ceph. Это избавило нас от необходимости загружать и скачивать сохраненные контейнеры. Теперь файловая система монтируется напрямую из сетевого хранилища в любую точку кластера.

Мы уделяем большое внимание не только техническим возможностям, но и сопровождению проектов клиентов. Важно отметить, что уже на этапе предварительных продаж HPC Park обеспечивает сопровождение проекта: создает команду специалистов вокруг задачи клиента и выделяет ресурсы для бесплатного тестирования. Такой формат работы оценили основатели компанией Recap Meetings при тестировании нашей платформы».

Где обучать нейросети? Основатели AI-сервиса Recap Meetings рассказали о тестировании на платформе HPC Park

Нейросеть как конкурентное преимущество

Алексей Зеленцов, Recap Meetings: «Компания Recap Meetings предоставляет сервис по составлению автоматических протоколов и резюме звонков. Решение предоставляется в виде API, а также on-premise c дообучением под формат и данные заказчика. Наш стартап активно развивается, сейчас мы выходим на рынок B2B Enterprise, в данный момент у нас запущено несколько пилотных проектов.Мы в Recap Meetings работаем с большим объемом информации: ежедневно обрабатываем более 10 часов аудио на API и более 2000 часов аудио для B2B-интеграций. Эти данные нужны нам для обучения генеративной языковой модели - нейросети, с помощью которой мы предоставляем клиентами резюме on-premise в необходимом формате.

Мы работаем на очень конкурентном рынке и нам важно иметь преимущество. После бума больших языковых моделей, таких как ChatGPT, Claude.ai и других, многие компании стали активно внедрять искусственный интеллект для автоматизации бизнес-процессов. Один из наиболее ценных процессов, который можно автоматизировать, - это составление резюме, протоколов звонков и списков задач. На российском рынке появилось много компаний, занимающихся разработкой таких технологий, но мы нашли уникальное решение, чтобы выделиться среди всех разработчиков.

Главное конкурентное преимущество Recap Meetings – то, что мы отказались от непосредственного использования ChatGPT в своих продуктах, и разработали свой аналог, заточенный под задачу составления резюме звонков и умеющий решать только ее. Это позволяет обеспечить безопасность данных – ведь ни одна компания не хочет, чтобы ее переговоры с контрагентами и записи стратегического планирования буквально улетали на серверы OpenAI. И залогом успеха нашего продукта стало сотрудничество с HPC Park, так как здесь мы получили необходимые ресурсы для разработки собственной нейронной сети».

Где обучать нейросети? Основатели AI-сервиса Recap Meetings рассказали о тестировании на платформе HPC Park

Задачи и результаты

Андрей Селихов, HPC Park: «В контексте сотрудничества Recap Meetings и HPC Park для проверки задачи машинного обучения с серверными GPU, мы предложили доступ к грантовым ресурсам HPC Park на 1 месяц. На платформе через web-консоль клиенту предоставили готовые контейнеры с привычными для специалистов интерфейсами. Аппаратная часть расположена в ЦОД в Москве, с дублированными каналами связи. Мы вместе с пользователем проходили этапы сайзинга и тестирования.

Максимелиан Мумладзе, Recap Meetings: «Для нас важно, что нам не просто выдали типовой грант, а организовали консультацию по подбору ресурсов, обучение по работе на платформе, провели за руку по настройке API. Нам создали группу поддержки с адекватным временем реакции, близким к 24х7, несмотря на то, что это TEST-среда. Спасибо команде за реакцию и решение вопросов, ни один не остался без внимания.

Мы провели стресс-тесты на перезапуск инстансов, общие тесты скорости pipeline, нагрузочное тестирование пропускной способности. В ходе стресс-тестирования поняли, что в моменты пиковой нагрузки иногда не хватает технических ресурсов, поэтому благодаря удобной интеграции мы смогли дописать собственный балансировщик количества выделяемых GPU в зависимости от нагрузки на наших задачах.

Мы получили отличный результат. Скорость обучения в контейнерах с GPU на a100 в 2 раза быстрее по сравнению с обучением на игровых ускорителях 3080 и 3090. Теперь мы проводим дообучение в среднем за 4 часа вместо 8 и спокойно останавливаем контейнер. При остановке контейнера его состояние сохраняется, а биллинг прекращается.

Нам не нужно думать об обеспечении проекта ресурсами: сервере, СХД, ЦОД с сетью. И мы уверены, что выжимаем максимальную производительность из оборудования провайдера во время использования: включили, закачали, обучили, выключили.

На платформе есть ряд уникальных функций, которые я хотел бы отметить. Первое: можно запускать контейнеры без GPU – как для подготовки моделей и загрузки датасетов, так и для служебных задач (например, планировщика, NFS storage и др.) Второе: аппаратная платформа расположена в Московском ЦОД с дублированными каналами связи и резервным питанием. Третье: предусмотрен понятный и удобный клиентский API для автоматизации ML-ops процессов и управления всеми функциями платформы.

В будущем мы хотим протестировать новые функции. Например, контейнеры с клиентским образом, которые позволят пользователю заранее подготовить статичное окружение, чтобы впоследствии использовать их для быстрого дублирования контейнеров. И одно из интересных решений, которое мы не встречали ни у кого кроме HPC Park, – это работающая технология MIG для, своего рода, “виртуализации” физической GPU карты. Серверные GPU (A100, H100) поддерживают Multi-Instance GPU (MIG) и имеют семь независимых инстансов в одном GPU. Карта «виртуализируется» на семь полностью изолированных инстансов, оснащенных памятью, кэшем и ядрами. Такой функционал используется, когда целая GPU избыточна – это существенно снижает затраты при расчетах. Также мы планируем использовать дробные части карты А100 для менее ресурсоёмких задач ML в будущем».

Андрей Селихов, HPC Park: «По результатам проекта мы в HPC Park планируем расширение функционала платформы и новые опции для клиентов. Мы доработаем дисковое хранилище с параллельным чтением и записью – это позволит использовать 1 диск сразу в нескольких контейнерах (например, для тестовых датасетов).

Кроме того, используя преимущество платформы, которая адаптирована под разные типы серверных ускорителей, компания планирует расширять парк доступных ускорителей, концентрируясь на самых передовых решениях.

Платформа дает новые возможности всем компаниям, которые планируют развивать AI-сервисы, именно такие решения станут драйвером развития нейросетей в России и во всем мире».

22
2 комментария

Недооценка возможностей высокопроизводительных вычислений для обучения ИИ.

Платформа решает задачи не только машинного, глубокого обучения и инференса ИИ, но используется для научных вычислений, геологоразведки, моделирования и симуляции, аналитики, обработки фото, аудио и видео.
Так как объемы разработки и применения генеративных языковых моделей сейчас в стадии активного роста и развития, в статье мы показали, как выглядит процесс обучения на примере этого сегмента.
В следующем посте затронем тему ИИ в медицине (обработка КТ, МТР, РГ) и как дообучаются "предобученные модели" при добавлении новых патологий.
Будет интересно! ;)