Большие языковые модели (LLM) обучаются на «человеческом» материале. Как следствие, иногда они ошибаются, звучат слишком формально и допускают дискриминационные высказывания — то есть «зеркалят» обычных людей. Технология Reinforcement learning from human feedback помогает научить робота соответствовать высокой планке, которую мы ему ставим.
Мне кажется что все таки должно быть наоборот, нейронка человеку друг, так как во многих вещах помогает