Виктор Н. (FractalAgents Ai)

+212
с 2016

Делаем Мультиагентный ИИ

21 подписчик
62 подписки

Посыл статьи верный. Слыхали про МАС - мультиагентный ии? Не то что сейчас на промтах а настоящее, где агенты кооперируются, способны синтезировать новых агентов. Тогда возможна такая штука, наад которой мы работаем, которую предварительно можно назвать thinking-over-agents в Мультиагентной системе - это когда уровень размышления (да, того самого что в токенах сейчас делают LLM) переходит на уровень выше, не токенов, а агентов. Так вот тут уже недалеко до AGI тк агенты это акторы, а токены нет

Для этого нужна мультиагентная система: которая сама сере агента оператора зайде на сайты, извлечет нужную инфу, систематизирует и оформит, вставит в нужное место в статье.
Вот вам и полезность реального ии МАС

1

Я думаю комменты там писала какая-то llm с промтом типа "ты разработчик, твоя задача описывать реальные кейсы где ии помогает".
Ну и другая LLM которая с ней спорила.

1

Большие файлы грузит по 20мб быстро, за 15 сек, ответы точные, понимает таблицы, есть подкрепление ответов в источнике - можно реально быстро проверить не бред ли сетка сгенерила, очень важно для важных тематик или огромных документов которые вычитать по номенклатуре тяжко
https://fractalagents.ai/

1

У нас в Fractal TechDocs загружает быстро, отлично работает с технической сложной документацией, бесплатно попробуйте, и не используются никакие зарубежные чужие сервисы типа Чатгпт, то есть данные не утекают
https://fractalagents.ai/

1

Идея хорошая и правильная. Мы разрабатываем мультиагентный ИИ и на самом деле такой сервис нужно делать на агентах, т.к. иначе будет плохая персонализация под интересы юзера. Это означает что трансформер, который вы используете для извлечения ключевых тематик, или тот промт, который вы даете LLM будет слабо давать суммаризацию по теме - то есть выкидывать важную в данной теме информацию.
Для справки так работает Яндекс Пересказ видео в Ютубе - есть тематики где работает хорошо, есть где очень плохо, и заранее предсказать нельзя, пока ты сам лично не проверишь. И это Яндекс с миллиардами денег, а у стартапа денег не может быть столько, значит у вас будет еще похуже на опенсорсной модели.
То есть довольно неплохо будет работать 2 фичи из ваших 4х:
Пересказ сообщений от конкретных людей 📚
Упоминание определенной темы - вы будете получать уведомления, когда она где-то появляется 🔔

Кстати, а какую монетизацию предполагаете?

Привет, спасибо за тест, это как глоток свежей воды, на русском очень мало бенчмарков.

Добавлю пару нюансов, который в основном касаются методологии тестирования.

1. В целом верно, что не полностью корректно сравнивать RAG систему и голые модели. Тут может быть два эффекта:

а) результат RAG системы может быть лучше, при более слабой модели потому, что внутри эмбеддер и поиск уменьшают контекст, поэтому модели нужно отвечать уже по тексту, где точно есть ответ и он очень сжатый. Конечно голая модель вынуждена отвечать по всему контексту, от этого результат может быть хуже.
б) вообще потенциал RAG раскрывается на длинных документах, более 4000 токенов, по сути ограничения на длину нет. То есть RAG система и дешевле и качественнее работает с большими документами.
Например, если даже брать модель с огромным контекстом типа 200к(и более) то стоимость одного запроса может быть и $0.5 долл и вырасти до 1 долл, и все равно этого не хватит, тк у бизнеса документы длиной миллиарды токенов, и все равно их надо как-то нарезать. А вот у RAG системы стоимость не зависит от длины базы знаний компании и составляет порядка $0.2-0.3, даже для гигабайтного документа.
И вся соль в алгоритмах RAG - если они плохие, то качество упадет, а если хорошие, типа графового подхода от Microsoft https://github.com/microsoft/graphrag (похож на FractalGPT) то вырастет.
В общем сервисы можно выделить в отдельную категорию, а там и chatpdf, docsbotai, опен-сорс либы.

2. А могли бы вы рассказать, как реализован пункт Ensemble 8 models ?
Думаю многим это интересно, т.к. сейчас же тренд на агентность - и как раз агенты, каждый из которых решает свою задачу могут супер повышать качество всего продукта. Например более сложный вопрос может направляться на бОльшую модель, а простой - на легкую, зачем тратить деньги, если он простой и мы уверены, что получим ответ и на 3b модели.

В будущем бенчмарк круто было бы расширить и на всякие модальности: то что я знаю бизнес прям плачет и просит работу с таблицами и картинками, там много проблем.

Привет, а у вас есть потребность в системе ответов на вопросы от учеников? Это называется RAG - когда нейросеть прочитывает текст и генерирует ответ на вопрос по нему, и тогда там нет галлюцинаций почти.
А именно в точных науках это критично.