Google выпустила Gemini 2.0 Flash 🎉
Почти во всём лучше прошлой версии - Gemini 1.5.
Gemini 1.5 была представлена в трех версиях:
- самая мелкая и шустрая Gemini 1.5 Flash 8B
- оптимальная по скорости, цене и качеству Gemini 1.5 Flash
- продвинутая версия Gemini 1.5 Pro
Так вот Gemini 2.0 Flash обходит даже продвинутую Gemini 1.5 Pro.
Особенности:
- Мультимодальный ввод: вы можете отправлять модели текст, изображения, видео и аудио (в реальном времени). Прикольно включать демонстрацию экрана и задавать вопросы.
- Мультимодальный вывод: Gemini может отвечать текстом, голосом, генерировать и изменять картинки, не используя сторонние модели. Русский голос он понимает, но сам на русском не говорит 😢. Я никак не смог его уговорить сгенерировать картинки, хотя в блог-посте эта возможность указана и есть видео-демонстрация (функция доступна только доверенным бета-тестерам, полноценный релиз для всех в начале следующего года).
- Интеграция с Поиском Гугл и выполнение сгенерированного кода.
Вообще, Gemini бьёт другие модели в размере контекста: у ChatGPT - 128K, у Claude - 200K, а у Gemini - 2M 🤔
Это очень важно для работы с большим количеством документации.
Ещё Gemini хорошо справляется с распознаванием изображений и используется тут:
Извлечение таблиц из изображений и PDF:
Жалко, что его можно использовать только через vpn и он отвечает голосом на языке страны указанной в vpn. Хотя русский понимает.
Он на русском через любой впн не отвечает(
Я когда пользовался Gemini - он давал совсем неадекватные ответы на простые вопросы. Решил ради эксперимента дать запрос, простой сайт, но он сделал это намного хуже, чем Claude или ChatGPT. Но если сейчас его настолько сильно обновили, то это отлично
Для написания кода тоже не использую, sonnet 3.5 и o1 лучше всех