Деградация chatGPT

Наткнулся на интересное исследование от трио ученых из Стэнфорда. Оказывается, что поведение LLM моделей может изменяться всего за несколько месяцев. Причем в худшую сторону.

Деградация chatGPT

Жертвами тестов стали самые популярные модели GPT-3,5 и GPT-4, лежащие в основе chatGPT. Взяли по две версии каждой, марта и июня 2023 года. А дальше сравнивали по 4 основным направлениям — математика, код, логика и этичность.

Хуже всего дела оказались у самой свежей модели GPT-4 (июнь):

⁃ напрочь разучилась определять простые числа (точность рухнула в 40 раз! с 96,7% до 2,4%)

менее охотно идет на ответы по деликатным запросам (в 4 раза)

качество генерируемого кода упало в пол с 52% до 10%

Любопытно, что один из авторов — Матей Захария. Со-основатель Databricks и создатель Apache Spark, аналитического движка для больших данных. Его авторитет добавляет доверия выводам.

❓ Но только почему так происходит? Ответов пока что не последовало. По крайне мере подсветили изъян закрытых LLM моделей. Как итог стоит пристальнее наблюдать за подобными ящиками Пандоры, ведь используются они всеми, от обычных пользователей до бизнеса.

Думаю, разгадка кроется в закрытом характере таких универсальных моделей, стремящихся построить утопичный и ОБЯЗАТЕЛЬНО безопасный AGI. Особенно касается моделей последних версий, на которые направляются все ресурсы команды.

Тренд на этичность моделей уже был силен. Anthropic разогнал конкуренцию. А когда ты вводишь много ограничений (по соображениям безопасности), неминуемо будет страдать производительность. То есть модель будет уклоняться от ответа. Кажется, именно это и произошло с GPT семейством.

Пока что сложно сказать точно. Никто не знает, какие именно изменения внесли разработчики OpenAI за 3 месяца. Но сигнал негативный. К тому же усугубляется падением пользовательской активности chatGPT и посыпавшимися судебными исками о нарушении авторских прав против OpenAI.

Все таки настоящее/будущее только за open-source и кастомными LLM моделями под конкретный спектр задач.

🤘 Чтобы следить за выходом новых материалов, переходите в тг канал Венчурная Прожарка. Подписывайтесь и делитесь с друзьями, а пока что до скорого!

55
1 комментарий

Даже если это так, то
- первое никому не нужно
- второе как бы очевидно
- третье: по каким критериям измерялось качество? там же не спроста отдельный GPT-4 сделали для кода (Code Interpreter)

Ответить