{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Визуальные модели: большие или маленькие?

Исследование Scaling on Scales, проведенное в Университете Беркли, наводит на размышления о том, всегда ли большие визуальные модели лучше, чем маленькие.

Подход предполагает максимальное использование потенциала небольших моделей, что может привести к неожиданным результатам:

1. Основа подхода — VisionTransformer, который обрабатывает изображение в изначальном размере (например, 224x224) и выдаёт некоторое латентное представление.

2. Затем изображение увеличивается до большего масштаба (например, 448x448) и делится на несколько кусочков поменьше.

3. Для каждого из маленьких кусочков модель также выдаёт свою репрезентацию.

4. Эти репрезентации объединяются вместе с репрезентацией исходного изображения, что позволяет "углубить" латентное представление картинки и зашифровать в нем много информации о её деталях.

Тесты

В ходе тестов такой подход применили к LLaVA-1.5-7B, и на бенчмарке V* она смогла обогнать или сравняться с GPT-4Vision и Gemini Pro.

Получается, маленькие модели тоже хороши, главное - найти к ним подход!)

Ещё больше важных и интересных новостей про AI на других ресурсах:

0
1 комментарий
Николай Заболоцкий

Все модели хороши, если конечно они в работе без каких либо изъянов

Ответить
Развернуть ветку
-2 комментариев
Раскрывать всегда