Физический ИИ выходит из лабораторий: Google, Nvidia и Tesla учат роботов жить среди людей
Пока мы спорим, чей чат-бот умнее, самая интересная гонка 2025 года происходит в мире Physical AI — когда ИИ не просто пишет тексты, а управляет телом робота в реальном мире. И вот почему сейчас это резко ускорилось.
1) Google дал роботам «мозг рассуждений»
DeepMind показал связку Gemini Robotics 1.5 и Gemini Robotics-ER 1.5 — модели, которые позволяют роботам выполнять длинные цепочки действий, а не одну команду за раз: сортировать бельё, раскладывать предметы, адаптироваться по ходу задачи. Ключевая фишка — перенос навыков между разными роботами (если научили руку, можно быстрее научить гуманоид).
Почему это важно: раньше робототехника упиралась не в «железо», а в отсутствие универсального «мозга». Теперь он появляется — в виде VLA-архитектуры (vision-language-action), по сути «ChatGPT для физического мира».
2) Nvidia собирает “Android для гуманоидов”
Почти одновременно Nvidia выкатила Jetson Thor — вычислительную платформу под гуманоидов и роботов нового поколения. Это прямой сигнал рынку: «роботы скоро станут массовыми, нужна стандартная база, как когда-то для смартфонов». К Jetson Thor уже присматриваются производители промышленных и бытовых роботов.
Смысл: кто контролирует «мозги» роботов на уровне железа и SDK — тот контролирует экосистему.
3) Tesla, Figure и остальные показывают «почти людей»
Tesla продолжает разогревать публику роликами, где Optimus двигается всё плавнее и учится навыкам «с натуры». А Figure AI после пилота на заводе BMW заявляет, что промышленная эксплуатация гуманоидов — уже не эксперимент на 2 недели, а месяцы реальной работы и десятки тысяч собранных деталей.
Что меняется: в 2023-м гуманоиды были «игрушками для шоу». В конце 2025-го — это уже рабочий класс для складов, заводов и, скоро, дома.
4) Параллельно идет война «универсальных мозгов»
Физические роботы — это верхушка айсберга. Под ней — гонка фундаментальных моделей:
- GPT-5 стал «унифицированным мозгом» с встроенным режимом рассуждений и мульти-модальностью. Это то, на чём будут учиться будущие агенты и роботы-помощники.
- Google выпустил Gemini 3, усилив “thinking mode” в поиске и агентных сценариях — это прямой мост от текстового ИИ к физическому.
- Meta продвигает Llama 4 как открытую мультимодальную платформу, пытаясь стать стандартом для разработчиков.
- Anthropic получает гигантские инвестиции от Microsoft и Nvidia — рынок консолидируется вокруг нескольких «мозговых центров».
Так мы близки к роботам “1 в 1 как люди”?
Внешне — всё больше да. Внутри — пока нет: роботы всё ещё хуже людей в тонкой моторике, безопасности и «здравом смысле». Но важный сдвиг в том, что ИИ научился планировать действие в физическом мире. А это было главным барьером между «красивой демкой» и массовым продуктом.
Что дальше
Следующий год будет про три вещи:
- стандартизация «мозгов» роботов (Nvidia/Google/кто-то ещё),
- первые бытовые пилоты (уборка, перенос предметов, простая помощь дома),
- и битва за доверие: кто докажет, что робот рядом с человеком безопасен.
Мы постепенно переходим от эпохи «ИИ в экране» к эпохе ИИ рядом с тобой. И кажется, это будет даже более громкая революция, чем генеративные тексты.