Оценивая ответы чат-бота Bard, подрядчики Google нередко действовали наугад из-за нехватки времени — Insider

Особенно если совсем не разбирались в теме вопроса.

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.google.com%2Furl%3Fsa%3Di%26amp%3Burl%3Dhttps%253A%252F%252Fwww.9news.com.au%252Fworld%252Fgoogle-ai-chatbot-bard-gives-inaccurate-answer-demo%252F2136bc9f-2cc2-41ec-bd22-60e8db221577%26amp%3Bpsig%3DAOvVaw2kaFdd30hbXTQIuwfcub_7%26amp%3Bust%3D1680719427294000%26amp%3Bsource%3Dimages%26amp%3Bcd%3Dvfe%26amp%3Bved%3D0CBEQjhxqFwoTCKiLlvXtkP4CFQAAAAAdAAAAABAE&postId=655807" rel="nofollow noreferrer noopener" target="_blank">9News</a>

Подрядчики из фирмы Appen, которых Google наняла для оценки точности ИИ-ответов, пожаловались, что времени, которое им дают на решение, не хватает, чтобы осмысленно подойти к оценке, узнало издание Insider. По его словам, внештатникам говорят, что это ответы «теоретического чат-бота», но даты внутренних переписок об этом совпадают с периодом, в который Google анонсировала Bard.
В инструкции указано, что задача подрядчиков — изучить запрос для ИИ, будь то вопрос, призыв к действию или заявление, и выбрать наиболее подходящий ответ бота из двух предложенных. Они также могут пояснить письменно, почему сделали такой выбор, чтобы бот обучался в том числе и на этих данных. Одни из основных критериев оценки, помимо прочих, — связность и точность.
На каждую такую задачу отводится ограниченное количество времени, которое разнится от случая к случаю: иногда это несколько минут, а иногда — всего 60 секунд. По словам внештатников, дать адекватную оценку ответу в столь сжатые сроки «трудно», особенно если это тема, в которой они не разбираются, — например, блокчейн и технологии в целом.
Так как выплаты суммируются на основе времени, которое отводится на каждую задачу, работникам приходится выполнять даже те, на которые они не знают точного ответа, — «просто чтобы получить деньги».

Некоторые ценят каждую минуту своего времени и не могут потратить её впустую, просто потому что вдруг поняли, что недостаточно подкованы в той или иной области. Им проще выбрать наугад, чтобы не потерять деньги и продолжить зарабатывать.
анонимный «оценщик»

Один из опрошенных внештатников также признался, что был бы рад приложить все усилия, чтобы убедиться, что чат-бот не исказил факты и выдал лучший ответ из возможных, но такие исследования порой требуют нескольких часов, которые Google не оплатит.

В конце 2022 года Google увидела угрозу в ChatGPT и объявила «красный код» внутри компании, бросив силы на разработку «своего ответа» и попросив помощи у сооснователей Сергея Брина и Ларри Пейджа. Первый в феврале 2023-го вернулся к работе над кодом.
Тогда же СМИ сообщили, что Google вложила более $20 млн в аналог «напарника программиста» Copilot и инвестировала $300-400 млн в ИИ-стартап Anthropic с выходцами из OpenAI.
6 февраля компания анонсировала бота Bard на нейросети LaMDA. 8 февраля, через день после выхода «нового Bing» от Microsoft, компания также провела презентацию, на которой, по прогнозам, должна была рассказать об этом больше, но в итоге представила многое из того, что уже анонсировала, и «не смогла повторить успех» Microsoft, писало The Verge.
Во время презентации, вдобавок ко всему, один из спикеров забыл взять на сцену телефон, который нужен был для демонстрации обновлений, а СМИ заметили, что компания допустила фактическую ошибку в публичной рекламе продукта. На фоне новостей акции Google падали почти на 10%, а сотрудники назвали анонс «поспешным, халтурным и недальновидным».