А вообще есть ИИ, которые можно на своей базе данных тренировать, а не использовать глобальную мусорную сеть? Сколько искал своими гуманитарными мозгами, не нашел решения.
Есть. См. понятие Lora. Это механизм дообучения имеющихся больших нейронных сетей. Самому большую сеть создать нереально - нужны сотни мощных видеодаптеров по миллиону рублей за штуку и много месяцев тренировки. Т.е. нужны миллиарды рублей.
Но уже такую готовую сеть можно дообучить на своих данных с помощью даже одного видеоадаптера - минимум 3090/4090. В основном всё упирается в объем видеопамяти. 24Gb - минимум для обучения.
Еще проблема, что всё быстро развивается, нет четкой полноценной простой пошаговой документации.
А вообще есть ИИ, которые можно на своей базе данных тренировать, а не использовать глобальную мусорную сеть? Сколько искал своими гуманитарными мозгами, не нашел решения.
Есть. См. понятие Lora. Это механизм дообучения имеющихся больших нейронных сетей. Самому большую сеть создать нереально - нужны сотни мощных видеодаптеров по миллиону рублей за штуку и много месяцев тренировки. Т.е. нужны миллиарды рублей.
Но уже такую готовую сеть можно дообучить на своих данных с помощью даже одного видеоадаптера - минимум 3090/4090. В основном всё упирается в объем видеопамяти. 24Gb - минимум для обучения.
Еще проблема, что всё быстро развивается, нет четкой полноценной простой пошаговой документации.
В твоей базе данных меньше, чем нейронов в ИИ. По такому ничтожному кол-ву данных крупный ИИ научить ничему в принципе нельзя.
Архитектура модели больше 5 лет в открытом доступе. Любой студент может собрать свой chatgpt. Сложность как раз в обработке большого количества данных
GPT4All умеет индексировать папку с документами и отвечать на вопросы по ним