Нейросеть научилась видеть как человек: NVIDIA и партнёры выпустили LocateAnything
Это модель, которая находит любой объект на изображении быстрее и точнее всех конкурентов.
Допустим, что вы просите ИИ-агента кликнуть на кнопку «Оплатить» в интерфейсе приложения, или задаёте роботу задачу взять нужный предмет со стола. (чисто теоретически). Для этого модели нужно не просто «понять» изображение, она должна точно указать координаты объекта, и очень быстро.
Главная идея
Стандартные модели кодируют рамку (bounding box) как последовательность токенов: сначала x1, потом y1, потом x2, потом y2 — строго по очереди. Это медленно и создаёт рассогласование: координаты одной рамки предсказываются почти независимо друг от друга.
Parallel Box Decoding (PBD) — ключевое изобретение LocateAnything. Вся рамка предсказывается за один шаг: четыре координаты сразу, как единый геометрический объект. Это сохраняет внутреннюю согласованность и резко ускоряет работу.
Помимо скорости, у подхода есть гибридный режим: по умолчанию модель работает быстро (параллельный режим), но при обнаружении неоднозначности автоматически переключается на последовательный — чтобы не терять точность там, где это важно.
Насколько быстрее? (в цифрах)
Обучающие данные
138 миллионов примеров из 12 доменов
Команда собрала собственный датасет LocateAnything-Data — один из крупнейших в области визуальной локализации:
Что умеет модель
ИИ-агенты должны уметь «тыкать»
Большие языковые модели хорошо рассуждают, но плохо «видят» в смысле координат. Если вы хотите сделать ИИ-агента, который управляет браузером, работает с файлами или управляет роботом — вам нужна модель, которая умеет точно и быстро указывать на объекты.
LocateAnything уже интегрирован в производственные модели NVIDIA, включая Nemotron 3 Nano Omni, и входит в семейство Eagle VLM. То есть это не академический эксперимент, а компонент реальных систем.
Будь в курсе новинок ИИ в моем тгк! Спасибо за прочтение! <3