{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

Визуальные модели: большие или маленькие?

Исследование Scaling on Scales, проведенное в Университете Беркли, наводит на размышления о том, всегда ли большие визуальные модели лучше, чем маленькие.

Подход предполагает максимальное использование потенциала небольших моделей, что может привести к неожиданным результатам:

1. Основа подхода — VisionTransformer, который обрабатывает изображение в изначальном размере (например, 224x224) и выдаёт некоторое латентное представление.

2. Затем изображение увеличивается до большего масштаба (например, 448x448) и делится на несколько кусочков поменьше.

3. Для каждого из маленьких кусочков модель также выдаёт свою репрезентацию.

4. Эти репрезентации объединяются вместе с репрезентацией исходного изображения, что позволяет "углубить" латентное представление картинки и зашифровать в нем много информации о её деталях.

Тесты

В ходе тестов такой подход применили к LLaVA-1.5-7B, и на бенчмарке V* она смогла обогнать или сравняться с GPT-4Vision и Gemini Pro.

Получается, маленькие модели тоже хороши, главное - найти к ним подход!)

Ещё больше важных и интересных новостей про AI на других ресурсах:

0
1 комментарий
Николай Заболоцкий

Все модели хороши, если конечно они в работе без каких либо изъянов

Ответить
Развернуть ветку
-2 комментариев
Раскрывать всегда