H200 для резидента «Сколково»: инсайты от клиента

Disclaimer: интервью проведено и законспектирован сотрудниками Intelion Cloud, упомянутыми ниже.

Поскольку мы сдаем в аренду серверы под ваши проекты и мечты, наш мир состоит из быстро меняющихся задач, которые необходимо анализировать, чтобы воплощать самые смелые идеи и находиться в контексте технологий, опережая потребности в растущей мощи нейросетей. Модели «умнеют», компании растут и один из самых главных наших инструментов – душевное общение с каждым, кто арендует наши серверы.

Интервью с клиентом всегда помогает понять, как наши услуги работают на практике. Вот вопросы, которые мы подготовили для клиента, и, конечно, ответы, которые мы публикуем с его разрешения.

Интервью

– Добрый день! Большое спасибо, что нашли время для нашего интервью, давайте начнем. Расскажите, какие задачи вы решаете с помощью наших серверов и какие требования к мощностям у вас были?

– Здравствуйте! Мы их используем для инференс-моделей, больших языковых моделей. В дополнение к нашему парку собственных серверов с GPU нам нужны были две видеокарты А100, и ваша компания их оперативно предоставила. Мы к вам «переехали» от другого провайдера и, заодно, расширились: раньше нам хватало одной арендованной А100, а теперь у нас их две.

Короткая справка: наш собеседник – Сергей Фомин, сооснователь и Генеральный директор компании IMOT.IO https://imot.io/, которая специализируется на анализе речевых коммуникаций с помощью ИИ. Платформа, разработанная специалистами компании, помогает бизнесу анализировать телефонные звонки и переписки, чтобы улучшать конверсию, показатели продаж и качество клиентского сервиса. Компания – резидент Сколково, среди клиентов – РЖД, «Газпром Нефть», Skillfactory, банки, девелоперы недвижимости, EdTech, телеком и многопрофильные медицинские центры. Сервис уже интегрирован с провайдерами IP-телефонии и популярными CRM-системами, но главное – использует собственную LLM на основе GPT, технологии распознавания речи и обработки естественного языка, а значит – требует мощностей для полноценного развертывания и успешной работы больших языковых моделей. С этим запросом – предоставить видеокарты, которые «потянут» LLM и обеспечат надежную работу платформы для крупных клиентов, Сергей и обратился к нам.

– А почему решили сменить провайдера?

– Для надежности нашего сервиса мы всегда опираемся на географически разнесенные дата-центры, на комбинацию принадлежащих нам мощностей GPU в одних локациях и арендуемых - в других. Так вот, во-первых, когда нам понадобился второй мощный тензорный ускоритель в аренду, у прежнего провайдера его просто не оказалось в наличии, это ведь дефицит. А во-вторых, нам понравилось ваше ценовое предложение. Мы его увидели, связались с вашим директором, оперативно все решили и через месяц переехали.

– Самый, пожалуй, распространенный вопрос – почему решили арендовать, а не докупать?

– На самом деле, рассматривали и такой вариант - докупить видеоускорителей в свои серверы, но в нашем случае аренда выгоднее, решили не наращивать капитальные затраты, а заодно и риски: все-таки при аренде риски ложатся на провайдера, и если что-то выйдет из строя – а такое бывает – мы надеемся на вашу поддержку и замену оборудования.

От редакции: это действительно так, если какой-то компонент выходит из строя, мы сначала переносим виртуальную машину клиента на другой физический сервер, что гарантирует минимальный простой. Затем выводим сервер с неисправным компонентом из эксплуатации и делаем замену вышедшей из строя детали (например, GPU или RAM) и после этого вводим сервер обратно в эксплуатацию.

– Какие у вас были критерии при выборе карт?

– Мы проводили исследование с нашими моделями на разных картах, и вот на А100 получили максимальный перфоманс по соотношению цены и производительности. Можно, конечно, пробовать разные варианты, но в наших условиях хорошо иметь как можно больше видеопамяти одним куском, так что в идеале хотелось бы H200 141 GB – недавно они вышли, мы успели протестировать и получили отличные результаты. В Европе их уже можно арендовать, это отличный вариант. Две А100 не дают удвоенной производительности: т.к. модель у нас большая, просто не хватает оперативной памяти на одной карте.

– Отлично, мы как раз сейчас думаем, какие GPU нам закупить.

– H200 мы взяли бы без разговоров, модели становятся все больше и больше, хорошо, когда в портфеле провайдера есть девайсы, которые state-of-the-art, на переднем крае.

– Окей, обязательно учтем. А как вам наш сервис, все ли устраивает?

– Пока мы всем довольны, аптайм хорош. У нас какие были свои критерии: наличие нужных видеоускорителей, цена, надежность и, конечно, географически недалеко от нас, чтобы не думать о часовых поясах и других моментах.

– Каковы ваши дальнейшие планы?

– Планы связаны с ростом: наша потребность в ресурсе растет, по планам она удвоится в течение года. Готовность использовать LLMs у клиентов также увеличивается. Раньше они пользовались старыми механиками для анализа речи, а теперь все хотят только написать промпт в GPT и получить желаемое. И это приводит к увеличению спроса на мощности, всё очень быстро происходит. Когда-то мы буквально думали, что нам будет много одной А100, потом переехали к вам на две, а теперь пора уже и третью брать, и четвертую.

– Чем мы можем приятно удивить вас в будущем?

– Про H200 я уже сказал, они очень нужны. Кроме того – быстрая готовность предоставлять ресурсы – это для нас критично. Мы быстрорастущая компания, работающая с самыми хайповыми технологиями ИИ, мы резиденты Сколково, наша клиентская база быстро растет. Если мы понимаем, что у нас появляется очередной крупный клиент, который создает нагрузку, у нас возникает запрос. Гибкость провайдера, способного поддержать оперативное расширение – это для нас очень важно. То есть способность, готовность оперативно расширяться – это для нас очень важно.

От редакции: здесь мы благодарим Сергея и дарим промокод на скидку, который гарантированно получают все, кто приходит к нам на интервью. И даже если вы [пока] не клиент Интелион Облака – вы все равно можете связаться с нами, чтобы рассказать о своих проектах и получить скидку заранее. Просто напишите нам: Антон Крупнов (chicken_kek) или Косарева Вероника (GRREENDragon).

Выводы и наблюдения

Мы поняли, что помимо качественных услуг, включающих надежность, поддержку и безопасность предоставляемых мощностей, для клиента оказалась чрезвычайно важна наша способность к изменениям и развитию.

Проще говоря, наиболее востребован сейчас тот провайдер, который не просто механически открывает доступ к существующим у него серверам, без внимания к потребностям клиента, но тот, кто владеет собственной экспертизой, следит за трендами в сфере ИИ и может предсказать, какие мощности и для чего будут востребованы через месяц, три месяца или год. Скажем, в нашем случае клиент ясно дал понять, что проблема масштабирования, роста – основная для его компании и ему важно, чтобы провайдер это понимал и находился «на переднем крае технологий». Это может помочь компании привлечь больше клиентов, особенно тех, кто нуждается в особых решениях.

Как видите, каждое интервью дает нам ценные инсайты, которыми мы обязательно будем делиться с вами! Обязательно подписывайтесь на наш телеграм-канал Artificial Intelion, чтобы следить за новостями компании, первыми узнавать обо всех изменениях в сфере ИИ, первыми тестировать нейросети, участвовать в розыгрышах и обмениваться опытом с экспертами в сфере ML и Data Science!

5
1
3 комментария