«Новый DeepSeek-момент»: первый в мире полностью агентный смартфон показали в деле.
Китай в очередной раз продемонстрировал стремительное развитие в области искусственного интеллекта. Пока весь остальной мир наблюдает за разрозненными ИИ-помощниками, функциями ИИ и редкими случаями взаимодействия приложений на смартфонах, ZTE и ByteDance разработали смартфон с интеграцией ИИ-агента на уровне операционной системы. Он управляет всеми функциями устройства так же, как человек.
Прототип смартфона ZTE Nubia M153 работает под управлением модифицированной версии Android, в которую интегрирован ИИ-агент ByteDance Doubao. Doubao — известная в Китае экосистема моделей ИИ общего назначения, которые используются в чат-ботах и рабочих приложениях. В случае ZTE Nubia M153 это не рядовой ИИ-помощник — агент полностью контролирует смартфон: видит пользовательский интерфейс, скачивает и запускает приложения, работает с их функциями, набирает текст, совершает звонки и выполняет многоэтапные задачи.
Пользователь может даже не знать, какие приложения могут требоваться для решения поставленных задач — ИИ управляет смартфоном так же, как это делает человек, а не приложение. В одном из примеров агент нашёл пользователю человека, готового постоять в очереди вместо него: нашёл и установил приложение местного сервиса, поставил задачу, заполнил необходимые поля в форме и вывел последний экран для подтверждения заказа. Сам пользователь до этого не знал, какое приложение могло бы решить эту задачу, и как его настроить. ИИ-агент сделал всё самостоятельно.
Прототип смартфона ZTE Nubia M153 работает на актуальном чипе Qualcomm Snapdragon 8 Elite Gen 5 с 16 Гбайт оперативной памяти. Анализ экранного интерфейса и функции управления реализуются локально при помощи ИИ на устройстве, а семантический анализ и более сложные операции осуществляются на удалённых облачных ресурсах. Такое распределение задач позволяет ИИ работать быстро и обеспечивать сохранность конфиденциальных данных — паролей и платёжной информации.
Приложениями на основе этой модели ByteDance Doubao в Китае пользуются более 175 млн человек. Она основана на разрежённой архитектуре «смеси экспертов» и является мультимодальной, то есть работает с текстом и изображениями. В одном из примеров ИИ на смартфоне опознал по фото станцию замены аккумуляторов для электромобилей NIO и пояснил принцип её работы.
Более впечатляющей демонстрацией стало бронирование номера в гостинице: пользователь сделал снимок входа в неё и изъявил намерение забронировать номер. Doubao в облаке интерпретировал семантику: определил гостиницу; понял, что необходим номер на сегодня и уточнил политику в отношении домашних животных. Обученная ZTE нейросеть Nebula-GUI с 7 млрд параметров проделала непосредственные операции: открыла приложение для бронирования, указала в нём даты, выбрала оптимальные цены, уточнила политику в отношении домашних животных и проинформировала пользователя о ней. Бесперебойную работу определяет двухслойная архитектура: Doubao планирует, а Nebula-GUI выполняет.
Ещё одна демонстрация — заказ роботакси. Doubao получила данные спутникового геопозиционирования, произвёл поиск местных приложений для заказа поездок, чтобы определить оператора, который обслуживает конкретный маршрут. Nebula-GUI запустила приложение Baidu Apollo, выбрала пункты посадки и назначения и подтвердила поездку. Пользователь прямо во время поездки попросил изменить место высадки — ИИ распознал активную поездку в Apollo, открыл нужный экран, поменял конечную точку, подтвердил её на смартфона и в самом роботакси. Когда пользователь забыл, какой номер телефона был привязан к его учётной записи в приложении, ИИ нашёл эти данные и назвал последние четыре цифры — их нужно было ввести для доступа в машину.