Microsoft сделала свой AI-чип Maia 200 — и это про цены на облачный ИИ, а не про «железячки»
Microsoft представила Maia 200 — собственный AI-ускоритель, который проектировали в первую очередь под инференс (генерацию токенов и ответы модели в проде), а не под обучение. И это важнее, чем звучит: сегодня самые большие деньги (и узкие места) в AI — именно в постоянном “обслуживании” запросов, когда миллионы пользователей одновременно стучатся в чат-ботов и ассистентов. Почему “инференс-чип” — это стратегия, а не эксперимент Обучение больших моделей — редкие «мега-запуски». Инференс — это ежедневная касса: ответы, подсказки, агенты, поиск, код, поддержка, корпоративные Copilot-сценарии. Maia 200 обещает: “лучше экономика токенов” (быстрее/дешевле генерация) контроль над AI-стеком: от дата-центра до продукта меньше зависимости от сторонних ускорителей и их дефицитов Что известно по цифрам (по заявлениям Microsoft) По официальному описанию, Maia 200: сделан на 3 нм у TSMC рассчитан на низкую точность (FP4/FP8) — типичный режим для инференса больших моделей упор на память и “прокачку данных”, чтобы модели не простаивали И самое «маркетингово-боевое»: до 3× FP4 против Amazon Trainium Gen3 FP8 выше Google TPU v7 ≈30% лучше performance-per-dollar относительно текущего “железа” в парке Microsoft Важно: это вендорские метрики — рынок будет смотреть на реальные workload-бенчмарки и стоимость “токена в проде”. Где Maia 200 появится первой Логично: внутри Azure и в продуктах уровня Microsoft Copilot — там, где миллионы запросов и любая экономия мгновенно превращается в деньги. Что это меняет для рынка Облака становятся “AI-вертикалями”: модель + инфраструктура + чип + SDK в одном контуре. Ценообразование на AI в облаке будет всё больше зависеть от эффективности собственного железа. Давление на Nvidia растёт не потому, что “GPU плохие”, а потому что гиперскейлеры хотят контроль маржи и предсказуемость поставок. Если Maia 200 реально масштабируется, следующий шаг очевиден: дифференциация по цене токена и по latency — и это уже конкурентное оружие против других облаков, а не просто “новый чип”.