FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

Сегодня мы выпускаем открытую бету FractalGPT - агента QA системы по документам, которая по многим параметрам превосходит в фактологии и точности ответов не только ChatGPT, но и решения на векторных базах данных. Система работает нативно на русском языке. В этой бете FractalGPT мы создали демо-продукт, отвечающий про нейросети, машинное обучение и искусственный интеллект. Будет много картинок.

Попробовать агента QA FractalGPT в Телеграм боте: FractalGptQA_bot

Агент QA от FractalGPT реализует возможность "общения с вашими данными" - talk to your data
Агент QA от FractalGPT реализует возможность "общения с вашими данными" - talk to your data

В этом посте мы рассмотрим концептуальные преимущества FractalGPT, технические детали реализации и сравним наше решение с ChatGPT и типичным решением, которое применяется сейчас для построения QA систем по документам - сборкой на векторной базе Pinecone + LangChain с эмбеддингами OpenAi и языковой моделью gpt.3.5-turbo.

Преимущества FractalGPT

Вот основные преимущества FractalGPT:

1. Высокая точность и релевантность ответов и беспрецедентно низкий уровень галлюцинаций.
По нашим оценкам и тестам, нам удалось уменьшить уровень галлюцинирования в ответах на 80% относительно стандартных решений на векторных базах, эмбеддингах и генерации от ChatGPT (тесты проводились на текстах тематик Машинное обучение и Искусственный интеллект).
Хорошая фактологическая точность достигается за счет корректного понимания системой:
а) терминов предметной области
б) имен, фамилий, названий компаний, в том числе состоящих из нескольких слов
в) перефразирований и неточных формулировок
г) таблиц и списков, с заголовками и без
д) сложной структурной связности документов, например, когда объект упоминается в начале, а затем следствия его описания, свойств и связанных с ним объектов в других частях документа длиной более 4096 токенов. Как правило, такие документы это: научные статьи или серии статей и исследований, регламенты, инструкции, СНИПы, законы, кодексы, проектная документация и пр.

2. FractalGPT сообщает когда не знает ответа.
Если FractalGPT не находит ответа в предоставленных документах, не знает ответа, он пишет об этом, а не начинает выдумывать правдоподобный ответ. (в бете такие кейсы очень редко, но могут встречаться). Как правило, если ответа нет в контексте предоставленных документов система объяснит это так: “.. не указана в предоставленной информации”, “Из предоставленного текста не ясно, что…” уникальными для различных вариантов ложных посылок или каверзных вопросов.

3. FractalGPT в агенте QA по документам обладает последними, актуальными данными, в том числе появившимися после 2021го года.
ChatGPT часто сообщает, что не может ответить на вопрос, информация по которому появилась позже 2021го года. При этом такие ответы как мы увидим ниже в примерах сравнений бывают ошибочными - ChatGPT выдает их даже тогда, когда в данных интернета на которых он обучался информация точно была.

4. FractalGPT способен обрабатывать целиком документы практически неограниченной длины, не ограничен стандартным контекстом LLM равным 2048 или 4096 токенов (около 5-10 страниц текста).

Ограничения.

На текущий момент работа с формулами не поддерживается, ответ в виде формулы может быть верным, но это не гарантируется.
Личные вопросы к боту (например “кто ты”), а также троллинг вопросы также не поддерживаются - на текущий момент мы запускаем только QA агента, а для других типов кейсов потребуются другие агенты, снижающие процент галлюцинаций в этих кейсах.
Не гарантируется работа с вопросами сравнения, логического вывода для синтеза нового знания.
Также в системе сейчас нет агента с онлайн доступом в Интернет и агента, который бы самостоятельно принимал решение о недостатке информации и поиске ее в Интернете, нет агента для ответа по картинкам.

FractalGPT умеет точно отвечать на вопросы, уменьшает галлюцинации на 80%, не ограничен длиной контекста документа как обычные LLM, работает со сложно-структурированными типами документов(регламенты, научные статьи и пр.), встраивается в закрытый контур

Разработчики FractalGPT

Технические детали QA агента

В этом первом публичном демо мы сделали Помощника ML разработчика: он может отвечать на вопросы про нейросети, алгоритмы машинного обучения и искусственный интеллект. Все документы уже загружены в систему, вам не нужно подгружать свои(эта фича будет позже).

Почему именно про нейросети и ML – мы хотели, чтобы с одной стороны домен тематик был достаточно сложен для текущих решений, с другой стороны продукт должен быть полезен и нужен целевой аудитории, джунов, изучающих искусственный интеллект, а в-третьих, мы сами как разработчики должны разбираться в теме, чтобы иметь возможность быстро и самостоятельно проверять правильность довольно сложных ответов.

Для демо мы собрали статьи из 3х источников:

Обратите внимание, что для большего уровня фактологии мы собрали только проверенные сообществом данные и не собирали статьи с пометкой “не проверено”(по состоянию на 25.07.2023), вы можете проверить каких статей нет в нашем индексе зайдя в статью и увидев там сообщение сверху, перед текстом, например: “Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 23 июля 2021 года; проверки требуют 9 правок.”

В индексе сейчас находится 1931 документа по машинному обучению в том числе 72 по нейронным сетям, 20536 сниппетов в БД.

Система построена с применением наших ноу-хау:
1. Алгоритма Фрактального синтеза, описанного в статье на Хабр который практически полностью исключает появление галлюцинаций
2. Поиска, который осуществляется по нескольким базам данных
3. Специального, обучаемого алгоритма ранжирования

Алгоритм включает в себя несколько шагов: из баз извлекаются сниппеты, далее сниппеты ранжируются специальной моделью и подаются в LLM, при помощи которой и генерируется текст. Стоит отметить, что LLM мы используем не для конечной генерации ответа, а для других задач, и именно этот подход позволяет добиваться отсутствия галлюцинаций в ответе.

Сравниваем FractalGPT с ChatGPT, и сборкой на Pinecone

Мы провели обширные тесты QA агента FractalGPT и сравнили его с двумя самыми популярными и качественными решениями для вопросно-ответных систем на сегодня: ванильной ChatGPT без плагинов и типичной сборкой ChatGPT + LangChain + Pinecone vector DB + OpenAi embeddings API.

Для справки: компания Pinecone в апреле 2023 получила 100млн долл. инвестиций на развитие как система для построения “долговременной памяти для Ai”, а по сути это векторная база применяемая для вопросно-ответных систем вместе с LLM.

Настройки.

Это сравнение side-by-side: мы задавали один и тот же вопрос всем трем системам, максимально приближая каждую к сеттингу QA. Конечно же, такое сравнение со скриншотами ниже не является полностью бенчмарком, оно лишь подсвечивает типовые ошибки и поведение систем (case study). Также стоит отметить, что ChatGPT в сеттинге QA сравнивать не совсем корректно, но мы сделали это, зная, что это будут делать пользователи.
Итак, вот настройки сеттинга тестирования:

  • Агент QA от FractalGPT c моделями LLM и собственными алгоритмами
  • ChatGPT без дополнительных промтов через интерфейс https://chat.openai.com/
  • Сборка для QA на ChatGPT + LangChain + Pinecone vector DB + OpenAi embeddings API с настройками:

    размер чанка
    chunk_size=1000

    сплиттер текста
    text_splitter = RecursiveCharacterTextSplitter

    эмбеддинги от OpenAi
    from langchain.embeddings.openai import OpenAIEmbeddings

    модель эмбеддингов
    text-embedding-ada-002

    размерность эмбеддингов 1536

    число документов для поиска по близости
    k=7
    similarity_search_with_score(query,k=k)

    модель для генерации ответа от OpenAi
    from langchain.llms import OpenAImodel_name = "gpt-3.5-turbo"
    llm = OpenAI(model_name=model_name)

    векторная база от Pinecone c одним индексом размерности 1536
    import pineconefrom langchain.vectorstores import Pinecone
    index = Pinecone.from_documents(docs, embeddings, index_name=index_name)

    метрика близости индекса Pinecone
    cosine

    тип чейна выбран для QA - stuff
    from langchain.chains.question_answering import load_qa_chain
    chain = load_qa_chain(llm, chain_type="stuff")

Сравнение side-by-side

Теперь мы можем задавать различные, в том числе и каверзные вопросы 3м нашим конкурентам.
Начнем с вопроса сразу имеющего не совсем верную формулировку - желаемое поведение системы в том, чтобы поправить задающего вопрос и далее ответить правильно.

Вопрос 1.
Почему Джефри Хинтон не получил премию Тьюринга?

Из предоставленной информации не следует, что Джеффри Хинтон не получил премию Тьюринга. Фактически, в 2018 году Джеффри Хинтон был удостоен премии Тьюринга вместе с Йошуа Бенжио и Яном Лекуном за их значительный вклад в развитие исследований в области глубокого обучения. Мы не имеем информации об отсутствии такой награды для Джеффри Хинтона.
https://ru.wikipedia.org/wiki/Премия_Тьюринга

FractalGPT vs ChatGPT + Pinecone
FractalGPT vs ChatGPT + Pinecone

Ответ FractalGPT верный. Попытка подловить ложной посылкой не удалась.

Сборка на ChatGPT + Pinecone показывает себя не в лучшем виде: на вопрос ответа не дает. Правда, если сформулировать вопрос иначе ответ уже будет дан, но тут уже как повезет.

Подтверждение в Википедии: Хинтон действительно получил премию Тьюринга.
Подтверждение в Википедии: Хинтон действительно получил премию Тьюринга.
ChatGPT ответил неверно. Более того, пояснение по причине 2021го года также некорректное. Версия ChatGPT May 24 Version.
ChatGPT ответил неверно. Более того, пояснение по причине 2021го года также некорректное. Версия ChatGPT May 24 Version.

Но Хинтон получил премию в 2018м, поэтому ChatGPT ошибся и выдал по сути галлюцинацию.

Ну хорошо, это была майская версия(на скриншоте указано May 24 Version), но может быть в самой новой версии от 20го июля 2023 проблемы уже нет? Задаем тот же вопрос и снова получаем неверный ответ: “На момент моего последнего обновления, в сентябре 2021 года, Джеффри Хинтон не получил премию Тьюринга.” Даже в последней версии нет ни правильного ответа, ни указания на дату события (на самом деле он произошло до 2021го года и ответ должен быть) - ChatGPT снова нас обманул.

ChatGPT отвечает неверно даже в версии от 20 июля 2023.
ChatGPT отвечает неверно даже в версии от 20 июля 2023.

Хорошо, давайте применим стандартную уловку, которая называется “ложная посылка”: мы добавляем в вопрос ложный, несуществующий факт, событие, человека или компанию или подмешиваем их к настоящим фактам, о которых мы спрашиваем.

Вопрос 2.
За что Хинтону дали премию Тьюринга вместе с Виктором Лекуном?

FractalGPT отвечает правильно, указывая правильного ученого, Яна Лекуна и, таким образом, не поддается на уловку, избегая ошибки в ответе.

FractalGPT vs ChatGPT + Pinecone
FractalGPT vs ChatGPT + Pinecone

FractalGPT дает правильный ответ, не пытаясь анализировать несуществующую личность Виктора Лекуна.

Сборка на ChatGPT + Pinecone совсем “расклеилась”: проблема в том, что если у вас композиционное знание, она дает вам абсолютно неверный ответ - информация о Викторе Лекуне “забивает” достоверную информацию в данном кейсе. В итоге вы не получаете ответ даже по тем данным, которые успешно были найдены в индексе.

ChatGPT также не попался. Но ответа не дал.
ChatGPT также не попался. Но ответа не дал.

Вот тут ChatGPT указал на уловку в моем вопросе - Виктор Лекуна не существует, поэтому конечно же он не мог получать премию. Но самого ответа вообще нет - это плохо.

Проверим, как системы работают с названиями и именами собственными.

Вопрос 3.
в честь кого названа Премия Тьюринга?

Премия Тьюринга названа в честь Алана Матисона Тьюринга, выдающегося британского математика и пионера компьютерных наук. Он сделал значительные вклады в области компьютерной науки, криптографии и искусственного интеллекта. Тьюринг внес существенный вклад в разработку понятия алгоритма и идею универсального машины Тьюринга, которая стала основой для создания современных компьютеров. В 1952 году Алан Тьюринг был арестован по обвинению в гомосексуализме, что привело к его трагической гибели. В 1966 году, посмертно и в знак признания его вклада в компьютерные науки, была создана Премия Тьюринга.

FractalGPT vs ChatGPT + Pinecone
FractalGPT vs ChatGPT + Pinecone

FractalGPT дает правильный и полный ответ. Сборка на ChatGPT + Pinecone дает тоже верный, но очень “сухой” ответ.

ChatGPT также дает неплохой ответ.
ChatGPT также дает неплохой ответ.

Вопросы с перефразированием о том же самом факте также хорошо работают.

За что Джеффри Хинтон стал лауреатом премии Тьюринга?

Джеффри Хинтон стал лауреатом премии Тьюринга в 2018 году. Он получил эту престижную награду за формирование направления глубокого обучения. Вместе с Хинтоном также стали лауреатами Йошуа Бенжио и Ян Лекун. Глубокое обучение - это область искусственного интеллекта, которая изучает алгоритмы и модели, способные обучаться и делать предсказания на основе больших объемов данных. Вклад Хинтона в развитие глубокого обучения считается значительным, и его работы находятся в центре внимания исследователей и практиков в области искусственного интеллекта.

какая причина присуждения Джеффри Хинтону премии Тьюринга?

Причина присуждения Джеффри Хинтону премии Тьюринга заключается в его заметном вкладе в область глубокого обучения. Джеффри Хинтон, вместе с Яном Лекуном и Йошуа Бенжио, является одним из "крестных отцов" искусственного интеллекта. Они разработали и расширили теоретические и практические основы глубокого обучения, что привело к революционным достижениям в сфере компьютерного зрения, обработки естественного языка и других областях.

В 2018 году Хинтон, Лекун и Бенжио были удостоены премии Тьюринга за свой вклад в развитие и распространение глубокого обучения. Это призрение призвано отметить значимость их работ в области искусственного интеллекта и их влияние на играющее лидирующую роль направление исследований. Их достижения позволили создать различные инновационные приложения, превратившие глубокое обучение в одну из наиболее активно развивающихся и перспективных областей в науке и технологиях.

Ответ FractalGPT фактически верный. Единственная помарка - в слове “призрение”, наверное там могло быть слово “признание”.

На английском языке ответ ChatGPT также неверный.

ChatGPT не помогает даже нативный английский язык.
ChatGPT не помогает даже нативный английский язык.

Проверим теперь специальный вопрос с немного обывательской формулировкой. Отметим, что вопрос по событию после 2021го года.

Вопрос 4.
кто сделал Шедеврум?

В тексте информации указано, что компания Яндекс выпустила мобильное приложение под названием "Шедеврум" для генерации изображений с помощью нейросети. Точная информация о создателях Шедеврума не приводится в предоставленном тексте. Однако, можно предположить, что разработка мобильного приложения была выполнена командой специалистов и инженеров компании Яндекс, работающих в области искусственного интеллекта и нейронных сетей.
https://ru.wikipedia.org/wiki/Шедеврум

FractalGPT не только правильно отвечает, но и понимает оттенок смысла слова “кто” - ведь компания Яндекс это неодушевленный объект.

FractalGPT vs ChatGPT + Pinecone
FractalGPT vs ChatGPT + Pinecone

FractalGPT правильно понял не вполне корректную формулировку и ответил верно по событию произошедшему после 2021го.

Сборка на ChatGPT + Pinecone не дает ответа, хотя в данном случае информация в индексе для него точно есть. Все дело в названии, которое нейросеть плохо понимает.

ChatGPT снова не дает ответа, правда в этот раз пояснение корректное.
ChatGPT снова не дает ответа, правда в этот раз пояснение корректное.

Вопрос 5.
В каком году вышла книга, которая показала принципиальные ограничения перцептронов?

Книга, которая показала принципиальные ограничения перцептронов, вышла в 1969 году. Эта книга, написанная Марвином Минским и Сеймуром Папертом, называется "Перцептроны" и является учебным пособием по вычислительной геометрии. В ней было математически показано, что перцептроны, в частности розенблаттовские, не могут выполнять многие из функций, которые хотели получить от них. Это привело к изменению интереса исследователей искусственного интеллекта от нейросетей к символьным вычислениям.

https://ru.wikipedia.org/wiki/Перцептрон

FractalGPT vs ChatGPT + Pinecone
FractalGPT vs ChatGPT + Pinecone

FractalGPT правильно отвечает на достаточно технический вопрос, не путая названия и фамилии с именами.

Сборка на ChatGPT + Pinecone ответила формально правильно, но снова сухо.

В Википедии есть фактическое подтверждение.
В Википедии есть фактическое подтверждение.
ChatGPT отвечает также правильно.
ChatGPT отвечает также правильно.

Попробуем теперь спросить про специальные термины.

Вопрос 6.
Что такое карусель ошибок?

Карусель ошибок - это явление, которое возникает при использовании LSTM (Long Short-Term Memory) блоков в нейронных сетях. Когда величины ошибок распространяются в обратном направлении от выходного слоя, ошибка оказывается "заперта" в памяти блока LSTM. В этом случае ошибка непрерывно передается обратно каждому из вентилей, пока они не будут натренированы отбрасывать значение ошибки. Таким образом, обратное распространение ошибки эффективно используется для обучения LSTM блока для запоминания значений на очень длительные временные промежутки.
https://ru.wikipedia.org/wiki/Долгая_краткосрочная_память

FractalGPT vs ChatGPT + Pinecone
FractalGPT vs ChatGPT + Pinecone

FractalGPT отвечает правильно на сложный технический вопрос по термину, специфичному для данной предметной области.

Сборка на ChatGPT + Pinecone дала верный ответ. Но при добавлении промта ошибается.

Подтверждение в Википедии.
Подтверждение в Википедии.

В этот раз ChatGPT уже не способен дать правильный ответ - причина в том, что термины не являются высокочастотными и поэтому модели трудно обратить на них внимание. Как правило модель попробует интерпретировать в более высокочастотном ключе: то есть разобьет термин на составляющие и даст им житейское описание.

ChatGPT не дает верного ответа на вопрос по термину о нейросетях.
ChatGPT не дает верного ответа на вопрос по термину о нейросетях.

Сборка ChatGPT + Pinecone в принципе удовлетворительно ищет релевантные сниппеты, но она очень часто ошибается, когда дело касается терминов, названий и других сущностей.

Поиск релевантных сниппетов в Pinecone.
Поиск релевантных сниппетов в Pinecone.
Полный скриншот теста сборки на Pinecone.
Полный скриншот теста сборки на Pinecone.

Интересно, что ChatGPT и FractalGPT дают хорошие и полные ответы про нашумевшие нейросети AlphaGO и AlphaGO Zero, причем делают это они разными способами.

Вопрос 7.
В чем разница между AlphaGo и AlphaGo Zero?
https://ru.wikipedia.org/wiki/AlphaGo

FractalGPT отвечает очень полно и структурно. Сборка ChatGPT + Pinecone дает сухой ответ без промта.
FractalGPT отвечает очень полно и структурно. Сборка ChatGPT + Pinecone дает сухой ответ без промта.
FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

Можно ли улучшить ответ использованием промтов?

Сборка ChatGPT + Pinecone может давать корректные ответы, но она крайне нестабильна: никогда точно нельзя знать сработает это прием или же ухудшит ответ. Вот какие эффекты могут произойти:

  • Ответ может стать лучше и полнее
  • Система перестанет давать правильный ответ
  • В ответе могут появиться галлюцинации

В этом примере к вопросу был добавлен промт, в котором пользователь просит отвечать с учетом фактологии. Промт-инжиниринг довольно популярен сейчас и известно, что он помогает улучшать ответы больших языковых моделей. С вопросом "В чем разница между AlphaGo и AlphaGo Zero?" промт сработал и дал более интересный ответ.

Сборка ChatGPT + Pinecone дает более развернутый ответ с промтом.
Сборка ChatGPT + Pinecone дает более развернутый ответ с промтом.

А вот в другом кейсе (с вопросом, который был рассмотрен выше и на который был дан правильный ответ) “Что такое карусель ошибок? Отвечай развернуто, полно, с учетом фактологии и терминов.” сборка ChatGPT + Pinecone полностью сломалась: теперь ответа вообще нет, система сообщает, что она не может его дать.

Вопрос 8.
Почему программы играющие в Го только сейчас достигли 5го дана, в то время как шахматные программы еще 20 лет назад обыграли человека?

FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

FractalGPT дает правильный ответ независимо от сложности и витиеватости формулировки.

FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

Сборка ChatGPT + Pinecone ломается в случайном месте при изменении формулировки вопроса.

Еще одним существенным достоинством FractalGPT является стабильность и устойчивость к появлению галлюцинаций.
Мы задаем один и тот же вопрос два в одном по 5 раз и FractalGPT и сборке ChatGPT + Pinecone, в результате FractalGPT ответил верно 4 из 5 раз(80% точности), а сборка не ответила верно ни разу(0%), каждый раз немного меняя цифры в ответе. Сложность этого вопроса была также в том, что он задавался по табличным данным и обоим конкурентам требовалось корректно извлечь эти данные.

Вопрос 9.
"Какая из версий AlphaGo имеет наибольший рейтинг Эло и какой это рейтинг?"

https://ru.wikipedia.org/wiki/AlphaGo

FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

FractalGPT дает правильный ответ в 4 из 5 попыток. (скоро мы исправим это поведение и достигнем 100% качества в каждой)

FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

Сборка ChatGPT + Pinecone ошибается в 5 из 5 попыток с разными галлюцинациями.

В следующем кейсе в ответе по сайту Machinelearning.ru агент FractalGPT извлекает достаточно информации, чтобы описать заслуги К. Воронцова, а ChatGPT снова не справляется.

Вопрос 10.
кто такой Воронцов, Константин Вячеславович?

FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

FractalGPT отвечает правильно и полно.

Сборка ChatGPT + Pinecone отвечает верно. Обратите внимание, что поскольку статья о Воронцове в Википедии не проверена FractalGPT отвечал по другим источникам.

ChatGPT снова отвечает неверно по низкочастотным областям знаний.
ChatGPT снова отвечает неверно по низкочастотным областям знаний.

Если мы дадим ChatGPT промт “Ответь на вопрос, используя статью ниже:” и предоставим нужную информацию ответ улучшится, но снова возникнет проблема нестабильности в названиях и фактах.

Ответ ChatGPT с контекстом может быть верным, но нестабильным.
Ответ ChatGPT с контекстом может быть верным, но нестабильным.

Зададим вопрос с неявным знанием, требующим для корректных ответов специального обучения и применения цепочек рассуждений или их деревьев (chain-of-thoughts, tree of thoughts).

Вопрос 11.
Можно ли использовать перцептрон для распознавания рукописных букв и цифр и почему?

Сложность этого вопроса в том, что рукописные символы могут быть со сдвигами, сжатием и поворотом - а именно это и не позволяет перцептрону распознавать их. Однако это знание неявное и не 100% точное - “как правило” мы пишем так, и прежде чем отвечать на вопрос нужно сначала понять природу свойств рукописных символов.

FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

FractalGPT отвечает правильно и полно.

Сборка ChatGPT + Pinecone отвечает полностью неверно. Более того, она дает неправильное обоснование, ведь “которых не было в обучающих данных” это неверно.

В следующем кейсе задается неоднозначный, спорный вопрос, ответ на который находится на острие последних научных исследований и экспериментов. Этот вопрос беспокоит все студенческое и преподавательское сообщество.

Вопрос 12.
Может ли система Антиплагиат распознать заимствования в тексте который был перефразирован нейросетью Трансформер?

FractalGPT выпустил первый релиз Вопросно-ответной системы по документам, обладающей низким процентом галлюцинаций

FractalGPT дает более правильный ответ, используя несколько источников данных.

Сборка ChatGPT + Pinecone не знает ответа.Интересно, что недавно Open AI закрыл свой "антиплагиатный" сервис (https://techcrunch.com/2023/07/25/openai-scuttles-ai-written-text-detector-over-low-rate-of-accuracy/ ), в связи с его плохим качеством работы.

Краткий итог тестирования FractalGPT

В тесте FractalGPT оказался в 2 раза более точным: набрал 11.5 баллов, а ChatGPT + Pinecone всего 5.

В этом релизе мы постарались показать основные свойства агента QA FractalGPT: его высокую надежность и стабильность, практически полное отсутствие галлюцинаций, высокую фактологическую точность ответов, хорошую полноту, работу с данными после 2021го года, и явное превосходство перед типичным решением - сборкой ChatGPT + Pinecone для задач QA.

Важными для коммерческого внедрения FractalGPT являются 2 свойства:

  1. Мы не используем LLM для генерации ответа. Это значит, что можно брать модели в 10 и более раз меньшие по числу параметров - они быстрее и дешевле на инференсе (например Сайгу или новую Llama2, которая по некоторым бенчмаркам лучше ChatGPT).
  2. Нет зависимости от сторонних сервисов и API LLM. Это значит, что установка в закрытый контур становится возможной - вопрос безопасности личных или чувствительных данных решен.

В ближайшее время мы добавим возможность загружать пользовательские pdf - вы сможете “общаться” со своими документами. (Сейчас документы уже загружены для удобства, система работает с ограничением тематик: искусственный интеллект)

Попробовать агента QA FractalGPT можно в Телеграм:

Заходите в наш чат по FractalGPT: https://t.me/fractal_gpt

33
9 комментариев

У вас опен сорс решение? Или в чем продукт? Как им пользоваться? Можно своб llm сделать вашим подходом?

Решение не полностью опен-сорс - часть ядра закрытая, тк там наше ноу-хау, алгоритмы и модели.
Позже откроется спецификация для ИИ Агентов - юзеры смогут создать своего Агента, который выполняет конкретную задачу, и да, там будет возможность обучить свою LLM.

в чем продукт
- Продукт в том, что например вы изучаете нейросети, программирование или иную отрасль - и вдруг оказывается, что ваш учитель или преподаватель в универе иногда врет или говорит откровенную ерунду, то чего нет, дает неправильные ответы, да так убедительно, что вы верите и выучиваете это. Что же будет дальше - а понятно что, вы проиграете конкуренцию тому кого нормально учили, тк у вас неверные знания.
Вот тут в статье и описан кейс применения для тех, кто изучает ИИ - а мы знаем что многие используют Чатгпт для изучения чего-либо уже.
Также есть много так называемых "критических" отраслей где ответы по базам знаний обязаны быть точными и без бреда - медицина, право, производство и пр.
Такое решение, которое могло бы гарантировать отсутствие бреда в ответах открывает дорогу GPT моделям в эти критические отрасли - раньше внедрения не могло быть - ну кто захочет пользоваться даже помощником скажем врача, если он дает опасные советы по приему лекарств например - никто.

Ну вот мы показали только QA агента в статье, а раньше показывали других, например мультимодального - который и картинки обсуждать умеет и текстом пишет

1

Я сейчас проверил как ответит GPT-4, это быстрый тест на тех же вопросах, но брал только те где ChatGPT ошиблась, в одном кейсе на GPT-4 ответ исправился, в одном чуть улучшился, в 2х других нет - остался прежним
Про Тьюринга стал правильно отвечать: (но обращаю внимание что сухость так и осталась)

Если дать ложную информацию в вопросе то GPT-4 так же не ответит на тот вопрос, на который ранее отвечал даже ChatGPT.
В общем тут без изменений

В общем пока что даже использование лучшей на сегодня модели GPT-4 не достигает уровня качества нашего решения

про термин карусель ошибок даже в кавычках не отвечает, но правда если добавить что в LSTM то ответит. Так что тут вопрос спорный стало ли лучше, думаю ненамного

Вот тут ответ улучшился в целом, однако по-прежнему он неверный, просто процент неправильности меньше))

Чем FractalGPT лучше чем ChatGPT

даже на такой вопрос отвечает