Нейросеть научилась видеть как человек: NVIDIA и партнёры выпустили LocateAnything

Это модель, которая находит любой объект на изображении быстрее и точнее всех конкурентов.

Допустим, что вы просите ИИ-агента кликнуть на кнопку «Оплатить» в интерфейсе приложения, или задаёте роботу задачу взять нужный предмет со стола. (чисто теоретически). Для этого модели нужно не просто «понять» изображение, она должна точно указать координаты объекта, и очень быстро.

Главная идея

Стандартные модели кодируют рамку (bounding box) как последовательность токенов: сначала x1, потом y1, потом x2, потом y2 — строго по очереди. Это медленно и создаёт рассогласование: координаты одной рамки предсказываются почти независимо друг от друга.

Parallel Box Decoding (PBD) — ключевое изобретение LocateAnything. Вся рамка предсказывается за один шаг: четыре координаты сразу, как единый геометрический объект. Это сохраняет внутреннюю согласованность и резко ускоряет работу.

Нейросеть научилась видеть как человек: NVIDIA и партнёры выпустили LocateAnything

Помимо скорости, у подхода есть гибридный режим: по умолчанию модель работает быстро (параллельный режим), но при обнаружении неоднозначности автоматически переключается на последовательный — чтобы не терять точность там, где это важно.

Насколько быстрее? (в цифрах)

Особенно впечатляет разрыв при высоких порогах точности: при IoU=0.95 LocateAnything даёт 31.1 vs 20.7 у конкурента на датасете LVIS. Это означает, что рамки  облегают объект максимально точно. 
Особенно впечатляет разрыв при высоких порогах точности: при IoU=0.95 LocateAnything даёт 31.1 vs 20.7 у конкурента на датасете LVIS. Это означает, что рамки  облегают объект максимально точно. 

Обучающие данные

138 миллионов примеров из 12 доменов

Команда собрала собственный датасет LocateAnything-Data — один из крупнейших в области визуальной локализации:

Нейросеть научилась видеть как человек: NVIDIA и партнёры выпустили LocateAnything

Что умеет модель

Нейросеть научилась видеть как человек: NVIDIA и партнёры выпустили LocateAnything

ИИ-агенты должны уметь «тыкать»

Большие языковые модели хорошо рассуждают, но плохо «видят» в смысле координат. Если вы хотите сделать ИИ-агента, который управляет браузером, работает с файлами или управляет роботом — вам нужна модель, которая умеет точно и быстро указывать на объекты.

LocateAnything уже интегрирован в производственные модели NVIDIA, включая Nemotron 3 Nano Omni, и входит в семейство Eagle VLM. То есть это не академический эксперимент, а компонент реальных систем.

Будь в курсе новинок ИИ в моем тгк! Спасибо за прочтение! <3

1 комментарий