Flipbook: исследование мира через image generation

Я протестировал демку Flipbook, исследуя старую Москву. Первичная картинка сгенерирована в ChatGPT Image 2. Все последующие генерит сам Flipbook.

Как мог бы выглядеть интернет, основанный на моделях генерации изображений. Звучит диковато? На самом деле не так уж дико.

Мы с вами привыкли, что обмен полезной информацией в основе своей происходит текстом. Если мы хотим в чем-то разобраться мы гуглим или задаем вопрос в ЧатГПТ. Но сейчас тренд явно смещается в пользу визуального контента. И значит формат взаимодействия с миром через текстовые странички устаревает.

Интересную концепцию представили три до селе не очень известных фаундера: Zain Shah, Eddie Jiao, Drew Carr. Они решили собрать концепт браузера, где весь интернет — это непрерывно генерируемый поток изображений. И назвали его Flipbook.

Например

Я сгенерил в GPT Image 2 картинку старой Москвы (по поводу исторической достоверности отправляйте жалобы дяде Сэму 😁) и закинул в этот "браузер". В его парадигме я просто отправил "запрос" на поиск, некую исходную точку своего исследования.

А дальше я могу нажать на абсолютно любой элемент изображения: площадь, здания, верфь и тд. И в ответ браузер:

• соберет информацию об объекте

• сгенерирует изображение с описанием / объяснением объекта

• прицепит его в некий граф, как дочернюю страничку от оригинальной картинки старой Москвы.

То есть вместо HTML страничек интернет превращается в граф изображений, которые можно сразу превращать в поток видео и текста.

Пока все еще ничего не понятно...

Подумал я когда потыкал. Но потом я вспомнил одну интересную тему, которую мы разминали на подкасте с Дизраптором на этих выходных (как выйдет — будет отдельный анонс): "а что будет с интернетом дальше, когда ИИ агенты станут выполнять всю скучную работу?"

Большинство действий, типа поиска информации, онлайн шоппинга, работы с любыми сервисами — все будет выполняться через общение со своим маленьким зоопарком агентов / или 1-м персональным агентом.

Умрет ли тогда привычный нам интернет? Вряд ли. Но поменяется точно. И Flipbook явно нащупали что-то.

Разовьем идею

Да, просто картинок маловато, согласен. Но представим, что рядом с уже привычным текстовым окошком ChatGPT или Claude — появляется второе окно. В нем идет непрерывная генерация визуала для всей информации, которую вы обсуждаете с агентом. И это не абстрактные картинки-заглушки. Это информативные графики, поясняющие иллюстрации, видео-разборы. Сейчас браузеры пытаются это делать смешиваю поисковую выдачу с картинками и видосами с ютуба. В будущем же — это превратится в единый непрерывный, персонализированный и интерактивный видео-поток / виртуальную реальность (в будущем эти понятия вполне себе могут слиться).

Вы сможете в любой момент ткнуть на картинку и получить уточнение/детализацию/развитие идеи по объекту. А ваш агент в чате сбоку получит дополнительный контекст и сопроводит ваш "тык" короткой текстовой справкой или даже сразу предложит какое-то действие.

Рабочий сценарий?

Легко. Виртуальный "рабочий стол". Рабочие процессы визуализируются в реальном времени:

• данные летят по пайплайнам

• ваше оборудование работает

• ваш автопарк ездит по маршрутам

• в конце концов, работает ваша армия агентов! Ведь, не будем забывать, что в ближайшем будущем каждый из нас будет делегировать большую часть работы своим ИИ-коллегам/подчиненным. А как известно, смотреть можно вечно на три вещи: огонь, воду, и как работают твои ИИ агенты 👀

В любой момент вы можете нажать на любой процесс и для вас сгенерируется информация по процессу, подтянется статус по нему и предложатся действия.

Самое крутое? Вашим разработчикам никогда не придется заранее генерировать этот мир и все эти живые виртуальные дашборды для вас — все они будут генерироваться в риалтайме лично для вас и обогащаться данными из ваших БД. Уже сейчас GPT Image 2 может "думать" и генерить весьма детальные и осознанные изображения, наполненные текстом и данными. Дальше будет только лучше.

В общем, весьма интересный концепт. Единственное, что непонятно, откуда мы возьмем столько железа и энергии, чтобы крутить все эти генеративные модельки...

А вы как видите будущее веб-браузинга?

Начать дискуссию