Визуальные модели: большие или маленькие?
Исследование Scaling on Scales, проведенное в Университете Беркли, наводит на размышления о том, всегда ли большие визуальные модели лучше, чем маленькие.
Подход предполагает максимальное использование потенциала небольших моделей, что может привести к неожиданным результатам:
1. Основа подхода — VisionTransformer, который обрабатывает изображение в изначальном размере (например, 224x224) и выдаёт некоторое латентное представление.
2. Затем изображение увеличивается до большего масштаба (например, 448x448) и делится на несколько кусочков поменьше.
3. Для каждого из маленьких кусочков модель также выдаёт свою репрезентацию.
4. Эти репрезентации объединяются вместе с репрезентацией исходного изображения, что позволяет "углубить" латентное представление картинки и зашифровать в нем много информации о её деталях.
Тесты
В ходе тестов такой подход применили к LLaVA-1.5-7B, и на бенчмарке V* она смогла обогнать или сравняться с GPT-4Vision и Gemini Pro.
Получается, маленькие модели тоже хороши, главное - найти к ним подход!)
Ещё больше важных и интересных новостей про AI на других ресурсах:
Все модели хороши, если конечно они в работе без каких либо изъянов