Flipbook: исследование мира через image generation
Как мог бы выглядеть интернет, основанный на моделях генерации изображений. Звучит диковато? На самом деле не так уж дико.
Мы с вами привыкли, что обмен полезной информацией в основе своей происходит текстом. Если мы хотим в чем-то разобраться мы гуглим или задаем вопрос в ЧатГПТ. Но сейчас тренд явно смещается в пользу визуального контента. И значит формат взаимодействия с миром через текстовые странички устаревает.
Интересную концепцию представили три до селе не очень известных фаундера: Zain Shah, Eddie Jiao, Drew Carr. Они решили собрать концепт браузера, где весь интернет — это непрерывно генерируемый поток изображений. И назвали его Flipbook.
Например
Я сгенерил в GPT Image 2 картинку старой Москвы (по поводу исторической достоверности отправляйте жалобы дяде Сэму 😁) и закинул в этот "браузер". В его парадигме я просто отправил "запрос" на поиск, некую исходную точку своего исследования.
А дальше я могу нажать на абсолютно любой элемент изображения: площадь, здания, верфь и тд. И в ответ браузер:
• соберет информацию об объекте
• сгенерирует изображение с описанием / объяснением объекта
• прицепит его в некий граф, как дочернюю страничку от оригинальной картинки старой Москвы.
То есть вместо HTML страничек интернет превращается в граф изображений, которые можно сразу превращать в поток видео и текста.
Пока все еще ничего не понятно...
Подумал я когда потыкал. Но потом я вспомнил одну интересную тему, которую мы разминали на подкасте с Дизраптором на этих выходных (как выйдет — будет отдельный анонс): "а что будет с интернетом дальше, когда ИИ агенты станут выполнять всю скучную работу?"
Большинство действий, типа поиска информации, онлайн шоппинга, работы с любыми сервисами — все будет выполняться через общение со своим маленьким зоопарком агентов / или 1-м персональным агентом.
Умрет ли тогда привычный нам интернет? Вряд ли. Но поменяется точно. И Flipbook явно нащупали что-то.
Разовьем идею
Да, просто картинок маловато, согласен. Но представим, что рядом с уже привычным текстовым окошком ChatGPT или Claude — появляется второе окно. В нем идет непрерывная генерация визуала для всей информации, которую вы обсуждаете с агентом. И это не абстрактные картинки-заглушки. Это информативные графики, поясняющие иллюстрации, видео-разборы. Сейчас браузеры пытаются это делать смешиваю поисковую выдачу с картинками и видосами с ютуба. В будущем же — это превратится в единый непрерывный, персонализированный и интерактивный видео-поток / виртуальную реальность (в будущем эти понятия вполне себе могут слиться).
Вы сможете в любой момент ткнуть на картинку и получить уточнение/детализацию/развитие идеи по объекту. А ваш агент в чате сбоку получит дополнительный контекст и сопроводит ваш "тык" короткой текстовой справкой или даже сразу предложит какое-то действие.
Рабочий сценарий?
Легко. Виртуальный "рабочий стол". Рабочие процессы визуализируются в реальном времени:
• данные летят по пайплайнам
• ваше оборудование работает
• ваш автопарк ездит по маршрутам
• в конце концов, работает ваша армия агентов! Ведь, не будем забывать, что в ближайшем будущем каждый из нас будет делегировать большую часть работы своим ИИ-коллегам/подчиненным. А как известно, смотреть можно вечно на три вещи: огонь, воду, и как работают твои ИИ агенты 👀
В любой момент вы можете нажать на любой процесс и для вас сгенерируется информация по процессу, подтянется статус по нему и предложатся действия.
Самое крутое? Вашим разработчикам никогда не придется заранее генерировать этот мир и все эти живые виртуальные дашборды для вас — все они будут генерироваться в риалтайме лично для вас и обогащаться данными из ваших БД. Уже сейчас GPT Image 2 может "думать" и генерить весьма детальные и осознанные изображения, наполненные текстом и данными. Дальше будет только лучше.
В общем, весьма интересный концепт. Единственное, что непонятно, откуда мы возьмем столько железа и энергии, чтобы крутить все эти генеративные модельки...
А вы как видите будущее веб-браузинга?