Виктор Н. (FractalGPT)

+105
с 2016
19 подписчиков
54 подписки

Идея хорошая и правильная. Мы разрабатываем мультиагентный ИИ и на самом деле такой сервис нужно делать на агентах, т.к. иначе будет плохая персонализация под интересы юзера. Это означает что трансформер, который вы используете для извлечения ключевых тематик, или тот промт, который вы даете LLM будет слабо давать суммаризацию по теме - то есть выкидывать важную в данной теме информацию.
Для справки так работает Яндекс Пересказ видео в Ютубе - есть тематики где работает хорошо, есть где очень плохо, и заранее предсказать нельзя, пока ты сам лично не проверишь. И это Яндекс с миллиардами денег, а у стартапа денег не может быть столько, значит у вас будет еще похуже на опенсорсной модели.
То есть довольно неплохо будет работать 2 фичи из ваших 4х:
Пересказ сообщений от конкретных людей 📚
Упоминание определенной темы - вы будете получать уведомления, когда она где-то появляется 🔔

Кстати, а какую монетизацию предполагаете?

Привет, спасибо за тест, это как глоток свежей воды, на русском очень мало бенчмарков.

Добавлю пару нюансов, который в основном касаются методологии тестирования.

1. В целом верно, что не полностью корректно сравнивать RAG систему и голые модели. Тут может быть два эффекта:

а) результат RAG системы может быть лучше, при более слабой модели потому, что внутри эмбеддер и поиск уменьшают контекст, поэтому модели нужно отвечать уже по тексту, где точно есть ответ и он очень сжатый. Конечно голая модель вынуждена отвечать по всему контексту, от этого результат может быть хуже.
б) вообще потенциал RAG раскрывается на длинных документах, более 4000 токенов, по сути ограничения на длину нет. То есть RAG система и дешевле и качественнее работает с большими документами.
Например, если даже брать модель с огромным контекстом типа 200к(и более) то стоимость одного запроса может быть и $0.5 долл и вырасти до 1 долл, и все равно этого не хватит, тк у бизнеса документы длиной миллиарды токенов, и все равно их надо как-то нарезать. А вот у RAG системы стоимость не зависит от длины базы знаний компании и составляет порядка $0.2-0.3, даже для гигабайтного документа.
И вся соль в алгоритмах RAG - если они плохие, то качество упадет, а если хорошие, типа графового подхода от Microsoft https://github.com/microsoft/graphrag (похож на FractalGPT) то вырастет.
В общем сервисы можно выделить в отдельную категорию, а там и chatpdf, docsbotai, опен-сорс либы.

2. А могли бы вы рассказать, как реализован пункт Ensemble 8 models ?
Думаю многим это интересно, т.к. сейчас же тренд на агентность - и как раз агенты, каждый из которых решает свою задачу могут супер повышать качество всего продукта. Например более сложный вопрос может направляться на бОльшую модель, а простой - на легкую, зачем тратить деньги, если он простой и мы уверены, что получим ответ и на 3b модели.

В будущем бенчмарк круто было бы расширить и на всякие модальности: то что я знаю бизнес прям плачет и просит работу с таблицами и картинками, там много проблем.

Привет, а у вас есть потребность в системе ответов на вопросы от учеников? Это называется RAG - когда нейросеть прочитывает текст и генерирует ответ на вопрос по нему, и тогда там нет галлюцинаций почти.
А именно в точных науках это критично.

Мы тоже подобное делаем - https://fractalgpt.ru/

Получайте точные ответы по документам и базам знаний.
Улучшайте качество поддержки клиентов, команд и сотрудников с помощью искусственного интеллекта.
Работает с гигабайтами данных без потери качества.

У нас основная фишка что ответы по документам бизнеса почти без галлюцинаций и нет проблемы огромного контекста

Вам надо глянуть FractalGPT, это мультиагентный ИИ, там под задачу собирается решение

Статья ничем, как будто Чатгпт писал. Могли бы вы описать подробнее и показать скриншоты того как это все работает.
Иначе это просто реклама каких-то токенов

2

Мы делали вопрос-ответные системы еще в 2020м, когда вышла GPT от Сбера.
А в 2023м в FractalGPT создали систему для ответов по базе знаний любого размера, без ограничений контекста как в обычных LLM, и она почти не галлюционинует, в отличие от всех подобных сервисов, которые мы видели

1

Думаю может, в задаче конечно же только arithmetic reasoning, мы не тестировали. А почему вы именно про нее спрашиваете?

Детали реализации агентов мы не раскрываем.
Но могу сказать, что LLM мы используем - и на самом деле не так важно сколько там млрд параметров, как важна другая вещь - архитектура системы и способность агентов собраться в рабочую стратегию за конечное время.
У нас ведь несколько агентов и там разные модели используются.

Дополнил после публикации статью схемой работы агентов, прикрепляю

Понимаю всю глубину вопроса))
Если кратко - то ChatGPT это масс продукт, именно он нашумел в СМИ, он доступен бесплатно у OpenAi в интерфейсе и относительно дешев по API.
И я не соглашусь, что он слабый - смотря для каких задач.

Далее, можно сказать "ну взяли бы Claude 2, GPT4. И чего такие простые задачи взяли - вон GSM8k датасет есть с алгеброй, есть Math и тп".
Но это дорого и долго - у нас разработка наперед расписана далеко.
Учить и создавать агентов, которые будут решать более сложные мат задачи, по качеству сопосбные конкурировать с GPT4 и с техниками промтинга с написанием кода - реально дорого.
Мы стартап, а не Сбер или Яндекс)

Наша задача - показать что агенты в принципе побеждают промтинг. А на каких они делают это задачах - не так важно на текущий момент.

Кстати, когда мы зарелизили свой RAG тут же на Vc то у нас спрашивали а почему с GPT4 сравнивали - я взял и сравнил выборочно с ней, и там тоже не было существенного изменения в качестве.

При тесте столкнулись, что почему-то люди дают задачи совсем не те, и не похожие на задачи из датасета и статьи.
Поэтому, решил написать еще коммент:

Задачи наверное так можно охарактеризовать:
1. в каждой по 1-3 действия
2. действия на сложение, умножение, деление
3. конечный результат это число, натуральное

Хотя мне кажется, посмотрев на эти задачи и так все понятно, их же все в школе видели, почему это вызывает вопросы - не совсем ясно, должна же быть генерализация)

Сотни других кейсов: с дробями, квадратными уравнениями, кубическими, на разрезание тканей или переплывание реки - все эти типы задач не были представлены в датасете, они более сложные и поэтому система их не должна уметь решать.


Примеры:

At Billy's Restaurant a group with 2 adults and 5 children came in to eat. If each meal cost 3 dollars, how much was the bill?

По заданным условиям, в ресторан пришла группа из 2 взрослых и 5 детей. Стоимость каждого приема пищи составляет 3 доллара. Чтобы определить общую сумму счета, нужно узнать общее количество посетителей (взрослых и детей) и умножить его на стоимость одного приема пищи.

Общее количество посетителей:
$total\_people = 2 + 5 = 7$

Сумма счета:
$bill = total\_people \times meal\_cost = 7 \times 3 = 21$

Таким образом, счет составит 21 доллар.

Ответ: Счет составит 21 доллар.


Megan baked 71 cupcakes for her school's bake sale. If her brother, Todd, ate 43 of them how many packages could she make if she put 7 cupcake in each package?

Если Меган испекла 71 кекс для школьной ярмарки, а ее брат Тодд съел 43 из них, то осталось 71 - 43 = 28 кексов. Если она хочет упаковать по 7 кексов в каждую упаковку, то она сможет сделать 28 / 7 = 4 упаковки. Поэтому Меган сможет сделать 4 упаковки.

Вот как великолепно (и неправильно) складывает ChatGPT, он даже не понял, что нужно отнимать

FractalMath решает правильно, а вот ChatGPT поплыл)) видимо потому что постановка далека от того что он видел в датасетах 😂

Делаем FractalGPT нейросотрудников - это сервис, куда можно загрузить свои документы, лекции и задавать по ним вопросы, а ИИ будет отвечать точно по этим знаниям.

Полезно и для бизнеса, кто хочет автоматизировать свои БЗ, сделать генеративные ответы для клиентов или ИИ продажника, и для обычных людей.
В целом это такой конкурент ChatGPT но который в ответах не врет
https://fractalgpt.ru/

1

Ваша задача не может быть решена этим ботом из статьи и не будет в ближайшем будущем, тк не предполагается делать медицинского бота для постановки диагноза - я думаю понятно почему.
Посмотрите другой проект: FractalGPT https://vc.ru/future/920668-razrabotchiki-fractalgpt-zapustili-qa-agenta-dlya-sverhtochnyh-otvetov-na-voprosy-po-dokumentam
В FractalGPT есть возможно агентам получать доступ к внешним источникам знаний. Но ваша задача - это кастомная разработка, которая требует ние только научных исследований, экспериментов, но и решения этических вопросов

Бот на такое скорее будет отвечать что нужно обоим проработать свои образы, с которыми должен метчиться любимый человек.

Юзер может выбрать нужны стиль, при желании.
То есть этот аргумент в целом верный, НО мой аргумент нивелирует его и он звучит так "бот это не человек" - поэтому многие правила реальной жизни неприменимы к боту. А к человеку вы правы.

Не устарел.
Если кратко, то обычный юзер не знает и не может написать такие промты, которые мы разработали и протестировали в результате более 100 итераций, так чтобы общение было сбалансированным по разным ключевым параметрам качества: эмпатия, проактивность, погружение в проблему и т.п.
Ваш вопрос правильный, но один промт ничего не даст - то есть не только мы сравнивали, но и сотни людей сравнивали и пытались себе сделать бота, это да, легко. Но они делают очень упрощенно и в итоге он им не интересен.

Для справки мы в рамках другого проекта делаем систему ответа по книгам - основная фишка что можно загрузить книжки психологов и ответы будут точными - ведь сейчас основная проблема это генерация бреда и эта проблема до сих пор у Сабины есть. И если добавить генерацию по книжкам - это будет фича которой ни у кого нет, в том числе у этих топ компаний которые вы перечислили.
https://vc.ru/future/920668-razrabotchiki-fractalgpt-zapustili-qa-agenta-dlya-sverhtochnyh-otvetov-na-voprosy-po-dokumentam

Спасибо за пост.
Вы верно подметили основную проблему - теперь с бумом ChatGPT она уже всем широко известна и называется "галлюцинации" - то есть ответы правдоподобные, но не правдивые фактологически.

Продукт доделан и он сильный, но сегодняшний уровень технологий не позволяет нам устранить те проблемы о которых вы написали.

Корень этой проблемы в двух аспектах:
1. в самой архитектуре нейросети - она называется трансформер. Архитектура принципиально не позволяет добиваться точных ответов из "весов" нейросети - для справки никто, ни OpenAi, Google, Сбер, Meta - никто не решил эту проблему и вы можете это видеть в самом интерфейсе ChatGPT - мелким шрифтом у них тоже написано, что могут быть ошибки в фактах, событиях.
2. в проблеме выравнивания (англ alignment): нейросеть даже обучается давать ответы те, которые юзеры при оценке скорее всего оценят как хорошие, это RLHF. Но тут есть проблема - люди это люди, и они оценивают хорошими те ответы, которые их скорее утешают, чем те, которые реально качественные - и в этой сфере это особенно критично. Это вторая причина, которая вообще-то устраняется обучением модели, но не полностью.

Поэтому предыдущий комментатор тоже неправ - дело не в наличии данных, сколько бы их ни было все равно хороших ответов, эмпатии, проактивности не добиться никак. Ну есть еще проблема денег, но это уже оффтоп.

Если интересно мы проблему галлюцинаций не полностью, но значительно уменьшили в рамках другого проекта, более глобального - FractalGPT. Одна из фишек - наш собственный RAG - способ который позволяет модели прочитывать книги, статьи и давать по ним очень точные и правдивые ответы, почти без галлюцинаций. Разработка большая и сложная, но вот именно она способна вывести Сабину на новый уровень - ведь теперь она действительно будет вместо генерации бреда обращаться к книгам психологов и брать информацию оттуда.
ссылки: https://dtf.ru/u/637184-viktor-nosko/1695665-rossiyskie-razrabotchiki-obyavili-o-starte-fractalgpt-analoga-chatgpt-i-gpt-4-ot-openai

https://vc.ru/future/920668-razrabotchiki-fractalgpt-zapustili-qa-agenta-dlya-sverhtochnyh-otvetov-na-voprosy-po-dokumentam

Я думаю ваш вопрос о туле (OpenAI-hosted tools) как раз для цели ответов по документам - Knowledge Retrieval:
https://platform.openai.com/docs/assistants/tools/knowledge-retrieval

Цитирую их описание того как этот тул работает:
"
Retrieval augments the Assistant with knowledge from outside its model, such as proprietary product information or documents provided by your users. Once a file is uploaded and passed to the Assistant, OpenAI will automatically chunk your documents, index and store the embeddings, and implement vector search to retrieve relevant content to answer user queries.
"

То есть их Knowledge Retrieval работает ровно так, как у нас описано в статье в разделе "Недостатки Retrieval-Augmented Generation" - то есть они нарезают текст на чанки, а затем используют векторную базу для ответов по ним - и потому это и работает плохо.
В общем проблема фундаментальная - тк в интернете только этот способ и представлен из-за его простоты видимо. К сожалению он дает очень плохие результаты, и непредсказуемые. И все сервисы которые мы нашли они работают так же, просто не упоминая в своих маркетинговых материалах на сайте о качестве ответов.

Мы об этом писали еще в разборе на Хабре: https://habr.com/ru/articles/728410/

У нас стандартные для таких сервисов правила по сохранности и конфиденциальности данных:

1. Все данные хранятся у нас на серверах в обезличенном виде. При желании Вы можете удалить ранее загруженные документы.
2. Для обучения генеративных моделей Ваши данные НЕ используются.
3. В пользовательском соглашении в п. 8, сказано, что Вы обязуетесь не загружать документы содержащие персональные данные.
4. Для обработки конфиденциальной информации Вы можете заключить с нами договор по установке этой системы в Ваш закрытый контур. Также возможно дообучение на Ваших данных, для получения более точных ответов.

А представьте, когда мамкины накрутчики допрут что надо ChatGPT для генерации комментов применять массово.
Вот это будет огонь.
Начнется битва алгоритмов

2

На самом деле ChatGPT иногда говорит если не знает, я сам как вы понимаете много тестил и это бывает, это хорошее свойство, полученной с помощью RLHF.

А вот другие LLM они прям хуже, особенно опенсорсные, еще сильнее бред выдают, типа Vicuna