Что хочу отметить:
- Во-первых, сама по себе llama3-70b довольно неплохо справляется с задачами, по сравнению с предыдущими версиями, без какого либо файнтьюнинга.
- Во-вторых, меня очень удивила технология компании Groq (не путать с нейросетью grok, от Илона). Они вроде как разработали технологическое решение, который обеспечивает быструю отдачу результата от нейросети и надо сказать — я был удивлен увиденному.
Отдельно хочу сказать:
- Скорость выдачи результата работы нейросети намного быстрее, чем мы видим в терминале. Посимвольная выдача информации сделана для визуального эффекта, не более. Кому нужно, сможете убрать ее в коде.
- В коде не реализована память диалога. Иными словами, каждый запрос как новый чат с нейросетью.
Друзья, я написал доработанную версию этого чата, в нем:
- поддерживается история переписки
- можно загружать документы из папки в исторический контекст
- можно загружать собственный код программы в исторический контекст
- появилась команда "новый чат" - создает новый диалог с очищенной историей переписки/исторического контекста.
Давайте, если лаков будет 30+ я выложу продолжение)
А локально можно запустить модель?
Да, в справке LangChain есть список провайдеров и моделей, с которыми можно работать. Мне кажется у них есть интеграции вообще ко всему, что я встречал: https://python.langchain.com/v0.1/docs/integrations/chat/
Вам потребуется локальный сервер со скаченной моделью нейронки, далее в коде нужно будет заменить импорт:
from groq import Groq на соответствующий
Далее в коде нужно будет прописать настройки локального сервера с моделью