Человек — нейронке друг! Как устроено и зачем нужно обучение нейросети методом RLHF

Большие языковые модели (LLM) обучаются на «человеческом» материале. Как следствие, иногда они ошибаются, звучат слишком формально и допускают дискриминационные высказывания — то есть «зеркалят» обычных людей. Технология Reinforcement learning from human feedback помогает научить робота соответствовать высокой планке, которую мы ему ставим.

2

Мне кажется что все таки должно быть наоборот, нейронка человеку друг, так как во многих вещах помогает

1