{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","hash":"257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

19 апр 2023 19.04.2023

Зачем Яндекс нанимает гуманитариев как AI-тренеров?

«Яндекс» начал нанимать людей гуманитарных профессий для обучения своей LLM YaLM 2.0 — российского аналога ChatGPT.

Короткий ответ зачем и почему кроется в аббревиатуре (RLHF) Reinforcement Learning from Human Feedback. Обучение с подкреплением на основе обратной связи с человеком расскажу что это, и стоит ли вкатываться в AI-тренера.

Искусственный интеллект (ИИ) может выполнять различные задачи, связанные с языком, такие как ведение диалога, или составление краткого содержания. Но как ИИ узнает, как правильно говорить или писать?

Одним из способов обучения ИИ является обучение с подкреплением (RL) . Это метод, при котором ИИ получает награду или штраф за свои действия в зависимости от того, насколько они хороши или плохи для достижения цели. Например, если ИИ хочет выиграть в шахматы, он получает награду за каждый ход, который приближает его к победе, и штраф за каждый ход, который отдаляет его от нее. Таким образом, ИИ учится выбирать лучшие ходы.

Но есть проблема. Как определить, насколько хороши или плохи действия ИИ в задачах, связанных с языком? Как измерить качество диалога? Как учесть разные цели, ситуации и предпочтения людей? Насколько языковая модель следует за инструкцией?

Для этого нужна функция награды — правило, которое говорит ИИ, сколько очков он получает за каждое действие. Но придумать такую функцию очень сложно и дорого.

Сложная и дорогая функция от OpenAI

Поэтому применяется другой способ — обучение с подкреплением от человеческой обратной связи (RLHF). Это метод, при котором ИИ не получает награду или наказание за свои действия напрямую, а спрашивает людей о своем мнении. Люди могут сказать ИИ, какие из его действий им нравятся больше или меньше. С помощью подобного выравнивания (Aligning) модель показывает значительно лучшие результаты.

OpenAI полностью оправдывает свое название Отрытый ИИ и предоставляет крайне мало информации о способах точной настройки GPT. Но совершено точно известно, что RLHF использовалось для превращения GPT-3 в InstructGPT.

И известно, что работа AI-тренера заключалась в ранжировании ответов языковой модели в соответствии критериями на 5 классов. Примеры ниже

и вот так

Является ли работа AI-тренером самым простым способом вкатиться в ИТ?

Не обязательно, но я уверен в том, что люди первыми освоившие работу с генеративным ИИ получат читерский буст в продуктивности и творчестве. И вовсе не ИИ лишит вас работы, а человек умеющий им пользоваться эффективнее вас. Поэтому AI-тренер как и профессия Промт-инженера — это профессии будущего.

Помимо этого в группе AI тренеров должны быть представлены эксперты с разными областями знаний и опытом, связанными с темой или задачей, для которой обучается LLM модель. Ведь это позволит обеспечить, адекватную оценку модели, конструктивную обратную связь и лучшее выравнивание (aligning) модели под любой запрос.

301 показ

1.5K открытий

Комментарии

Написать комментарий...

-3 комментариев

Раскрывать всегда