Использование API ChatGPT и Elephas для создания собственного кластера знаний и работы с ним

На прошлой неделе я разговаривал с одним дата-инженером об использовании chatGPT и он рассказал некоторые проблемы, с которыми сталкивается в его работе. Он утверждал, что chatGPT не может обрабатывать специфическую для его работы техническую информацию, которая часто не доступна в открытом доступе, и отметил, что данные chatGPT не обновляются в реальном времени. Это вызывает вопросы о применимости chatGPT в специализированных областях.

Благодаря множеству преимуществ, chatGPT безусловно оказался революционным во многих областях. Однако, как было отмечено, один из его основных недостатков заключается в отсутствии свежих данных. Это может стать проблемой, когда существуют важные обновления для инструментов или технологий, с которыми вы работаете, но они еще не были интегрированы в базу данных GPT. Такой сценарий может значительно ограничить полезность GPT для определенных задач профессионалов. Было бы ли здорово, если бы вы могли дополнить базу знаний GPT свежими данными.

С другой стороны, вы можете работать с конкретной документацией или набором знаний, которые вы хотели бы интегрировать в chatGPT. Например, у вас может быть подробная спецификация или набор инструкций, которые не доступны публично, но содержит огромное количество информации, которую вы хотите быстро извлекать. Было бы полезно, если бы вы могли подключить GPT к этим материалам и использовать его как поисковую систему, индексируя эти файлы и получая ответы на свои вопросы.

У меня есть хорошие новости: это уже возможно. Для решения этой задачи вам потребуется API chatGPT и программа Elephas, которая, к сожалению, работает только на macOS. Для пользователей Windows думаю, что существуют аналоги, и их стоит поискать.

Создаем кластер знаний

В качестве примера я написал небольшой текст и сохранил его в Google Docs и открыл к нему доступ по ссылке. Текст:

О чем он думает? Он думает что использование chatGPT с возможностью загрузки в него свежих данных об обновлении инструментов - очень сильно поможет специалистам в решении своих задач

Давайте попробуем спросить chatGPT вопрос - “О чем он думает”

Использование API ChatGPT и Elephas для создания собственного кластера знаний и работы с ним

Понятно, что если мы попытаемся задать вопрос GPT без ссылки на этот документ, мы не получим полезного ответа из-за широкого контекста и отсутствия конкретных деталей.

Подключаем кластер знаний к chatGPT

Первым шагом к реализации этой идеи будет установка Elephas и подключение к API чата GPT. Затем в настройках мы указываем источник данных. Например, я использовал файл Google Docs доступный по ссылке

Использование API ChatGPT и Elephas для создания собственного кластера знаний и работы с ним

Когда мы загружаем URL документа в Elephas и задаем тот же вопрос, система теперь может использовать эту дополнительную базу знаний для формирования более осмысленного ответа.

Использование API ChatGPT и Elephas для создания собственного кластера знаний и работы с ним

Это открывает новые возможности. Вы можете создавать свой собственный кластер знаний, который может включать ссылки, файлы и другие данные, которые вам важны. Этот кластер знаний можно затем подключить к chatGPT для поиска информации.

Однако, важно отметить, что обновления страницы, доступной по URL, не индексируются автоматически. Если вы загрузили страницу сегодня, а завтра она была обновлена, эти изменения не будут отображаться в chatGPT. Один из способов решить эту проблему - пересоздать кластер знаний, чтобы он мог быть переиндексирован. В то же время, это может быть положительным аспектом. Если вы загрузили интересную статью, которая впоследствии стала недоступной, она все равно сохранится в вашем кластере знаний.

Попробуем прочитать книгу - Путь джедая Максима Дорофеева

Сформулируем запрос

Напиши краткое содержание книги “Путь джедая” автора Максима Дорофеева. И дай мне список самых важных идей и тезисов из нее

Сначала зададим этот вопрос chatGPT-4 с его базовыми знаниями о книге:

Использование API ChatGPT и Elephas для создания собственного кластера знаний и работы с ним

Получаем вполне логичный ответ. Еще в недавнем прошлом chatGPT фантазировал на тему того как Максим является джедаем и какой путь он проходит, но видимо в последних обновлениях в целом фантазерство подрезали :)

Теперь возьмем chatGPT-3.5 + дообучение (загрузили книгу) и поговорим о книге:

В целом получилось неплохо. Конечно, результат не идеальный, есть забавные суждения, но при этом общая мысль и направление, на мой взгляд, верные. Я выбрал сложный пример, потому что у Максима нет стандартной формы подачи материала, нет шаблонных ответов на вопросы об управлении временем, есть своеобразные формулировки. Поэтому, если ты берешь книгу Максима и накладываешь ее на большой пласт информации об успешном успехе и том, что нужны еще часы в сутках, то легко можно свалиться в этот паттерн. В общем, все логично.

Я вижу, что у создания своих кластеров знаний есть потенциал и он очень хороший.

Во-первых, если у вас есть какая-то техническая информация, которой нет в общем доступе или по общению с chat, ясно, что у него знаний очень мало в этой области, то можно сформировать этот кластер знаний и общаться по с chatGPT об этом.

Во-вторых, технология тоже не стоит на месте, я пользуюсь chatGPT недавно, но уже начинаю замечать, что от апдейта к апдейту что-то подкручивают и улучшают результат. Например, заметил, что в последнее время фантазерства стало меньше. Конечно, возможно, что моя нейросеть в голове научилась писать более качественные промты, но кажется, что дело не только во мне.

При всем при этом chatGPT пока не превращается в волшебную палочку, которой можно пару раз махнуть, и случится магия. В некоторых случаях использования может быть действительно магия, но точно не во всех.

88
Начать дискуссию