Три часа назад Google открыл бесплатный доступ к самой мощной нейросети нашего времени - Gemini 1.5 Pro
Написал инструкцию как получить доступ к нейросети, которая работает с файлами размером с два тома "Войны и мир".
Почему такой ажиотаж?
Gemini 1.5 Pro - это первая модель, которая смогла перешагнуть через порог в один миллион токенов за один вопрос, что составляет примерно 700 000 слов (для сравнения два тома "Войны и мир" содержат 616 668 слов и где-то ~1300 страниц)
Но Gemini 1.5 Pro не останавливается на тексте. Модель еще может обрабатывать:
- До 1 часа видео, правда без аудиодорожки. Нейросеть может считывать события, которые происходят и текст в кадре (к примеру со слайдов).
- До 30 000 строчек кода, причем можно загрузить сразу весь проект из кучи файлов - Gemini сама подскажет какие новые функции можно сделать и напишет для них код.
- Фотографии - модель понимает весь контекст и объекты.
Беспрецедентный прорыв
Gemini 1.5 Pro не просто обогнала GPT-4 в 8,2 раза по размеру контекстного окна. Она действительно понимает информацию на всем его протяжении. При тестировании Gemini не заметила нужный фрагмент текста только в 3 из 1125 запросов.
Инструкция
- Открываем браузер Google Chrome и включаем, либо свой VPN, либо можно устанавливаем бесплатное VPN расширение - Browsec VPN.
- Выбираем страну - Сингапур или США. Они есть в официальном списке стран в которых доступна Gemini. Ночью работало и с Нидерландами, но сейчас уже такой вариант не проходит.
- Переходим на сайт aistudio.google.com/app, залогиниваемся через гугл почту и используем Gemini 1.5 Pro для своих грандиозных задач, загружая файлы и целые папки, либо просто используя общение с нейросетью.
А если интересно попробовать самую мощную нейросеть, которая работает с аудиофайлам, это уже собственная разработка, которую поставил в телеграмм бот Brifer [AI Meeting Summarizer]. Он сокращает многочасовые записи рабочих встреч / видео с YouTube → 1 минуту инсайтов.
P.S.
На создание краткого содержания "Войны и Мир" у Gemini ушло 305 секунд. Получается за секунду Gemini обрабатывало 2 021 слово.
Статья, в которой Gemini 1.5 сравнивается с GPT-4 (из которой взяты зеленые квадратики): https://arxiv.org/pdf/2403.05530.pdf
А вот почему Gemini 1.5 Pro вдруг стала отказываться загружать текстовые файлы на обработку?
Утром для теста загрузил книгу "Рисовый штурм" про фишки мышления, 15 Mb в PDF. Система лихо размотала книгу на сухой остаток по приемам-техникам, потом наваяла корректных примеров, потом составила адекватный учебный курс на три дня по три часа, предложила дюжину приличных названий (среди 30 выданных), ну и написала пару рекламных статей про пользу креативного мышления, а под занавес – сценарий продающего разговора с обработкой возражений (тут моделька поплыла и я решил погрузить ей базу возражений). В целом – уровень ощутимо выше GPT4, есть с чем сравнивать. Хоть и помедленнее.
Однако потом просто перестала обрабатывать любые текстовые файлы. Грузит, но выдает ошибку. Дообучить контекст не получается, эксперимент не завершен, а так хотелось посмотреть, получится ли дообучать в процессе внешними материалами.
Странная у вас инструкция. Чтобы воспользоваться Gemini мало VPN, так как там нужна авторизация, а раз вы авторизуетесь, то ваш профиль должен быть привязан к разрешенной стране.
Надо либо свой аккаунт переводить, например в USA (занимает какое-то время и это проверят), либо регистрировать новый и с помощью номера из USA регистрировать новый аккаунт. Номер телефона для активации брал тут: https://sms-activation-service.com/ru/?ref=1707688748
Короче говоря, только зря перевел свой акк в Нидерланды(
Скачал впн, выбрал США, зашел через свой акк, который никуда не переводил и даже не помню куда он привязан, все работает. Профит
Правда ощущения после гпт 3.5 так себе. Еще сыроват интерфейс, пишет местами хуже и больше ненужной информации, и по скорости ответа уступает. Вопросики имеются.
Ребята, оказывается что у меня VPN не работал! Вы правы, через Bowsec всем норм работает даже из Нидерландов!
Да, OpenAI в плане краткости безусловный победитель) с разными Claude прогонял много тестов - тоже многословят. Из общего впечатления Gemini 1.5 прям вне конкуренции, если информацию вытаскивать из документов надо, даже небольших
Спасибо, сейчас поправлю. Ночью получалось из Нидерландов, возможно уже ограничили. Тогда надо из Сингапура входить, он есть в списке.
А почему именно Сингапур? Там же огромный список локаций. Или это как то влияет?
На Сингапуре точно проверили сегодня утром - работает. Из того, что еще бесплатно предлагает Browsec - можно еще и США) А если собственный VPN, то главное из этого списка стран брать локацию: https://ai.google.dev/available_regions
Проверил у себя на индийском сервере. Работает
Для ответа Gemini 1.5 Pro имеет контекстное окно в 8 192 токена, это примерно 5 400 слов или 13 страниц. Если добавлять обратно в запрос то, что Gemini написала, то можно за 100 запросов и написать свою «Войну и мир»
увы, чудес не бывает... оно, конечно, войну и мир как-то пересказывает как безухий встретился с принцем балконским, но я ему скормил сейчас немного более сложный пдф и оно конечно его не понимает, пишет общие фразы с перевернутым смыслом...
ps
вспоминается анекдот про поручика ржевского и малиновую косточку:)))