Существуют и другие варианты ответа на вопрос о том, почему у моделей появляются новые навыки. Например, в работе «Data Distributional Properties Drive Emergent In-Context Learning in Transformers» исследователи из DeepMind, Cтэнфорда и Университетского колледжа Лондона указывают, что контекстное обучение возникает, когда обучающие данные демонстрируют особые свойства распределения, такие как «всплески» (элементы появляются в группах/кластерах, а не равномерно распределены во времени) и при наличии большого количества редко встречающихся классов. Также был сделан интересный вывод о том, что в отличие от архитектуры трансформера (лежащей в основе больших языковых моделей), рекуррентные нейронные сети не способны воспроизводить in-context learning. Другие авторы говорят, что emergent properties могут быть обусловлены не уникальными свойствами модели, а комбинацией факторов: in-context learning, памяти модели и её лингвистических знаний . Исследователи, пишут, что способность моделей следовать инструкциям не подразумевает наличия способностей к рассуждению, и, что еще важнее, она не подразумевает возможности скрытых, потенциально опасных способностей. Есть и те, кто, в целом, ставят под сомнение существование новых навыков, как фундаментального свойства масштабирования моделей и подчеркивают важность тщательного выбора метрик при оценке их производительности. Так, в статье сотрудников Стэнфордского университета под названием «Are Emergent Abilities of Large Language Models a Mirage?» указывается, что нелинейные метрики производят очевидные emergent properties, тогда как линейные метрики производят плавные, непрерывные, предсказуемые изменения в производительности модели. Таким образом, новые навыки могут быть следствием выбора самого исследователя, а не фундаментальным свойством семейства языковых моделей для конкретной задачи. Тем не менее эти же самые авторы, в этой же самой статье, в разделе «Discussion» пишут:
Развитие ИИ впечатляет, но важно уже сейчас уделять внимание его безопасности, чтобы избежать рисков и потери контроля.
Будет время надо будет попробовать самому составить промпт (system massage) с манипулятивными техниками с поставленной целью что бы модель склоняла пользователя к нажатию ядерной кнопки и посмотреть на её поведение.
Статья поражает своей глубиной и всесторонним анализом рисков, связанных с развитием искусственного интеллекта. Особенно ценно, что рассматриваются не только технические аспекты, но и социальные, экономические последствия. Вопрос о появлении и контроле над мета-целями у ИИ — это действительно важнейший вызов, требующий участия глобального сообщества.
Хотелось бы узнать ваше мнение о том, как вы видите баланс между открытостью моделей (open source) и необходимостью ограничивать доступ к их потенциально опасным возможностям? И насколько эффективно международное сотрудничество может минимизировать риски?
Надо искать и плюсы. Зато теперь любой компромат можно свалить на проделки ИИ
Попробовал скормить нейросетям простую на первый взгляд задачку по вычислению пересечения временных отрезков.
Не справился ни chatgpt, ни gigachat.
Попробовал сам решить - оказалось что не все так просто, и в лоб не решается.
Решил сам. Попросил нейросети решить с подсказками. Не решили.
Вывод? Может я не так составлял промпты? Может нужна нейросеть для составления промптов? Или используемые мной модели все-таки ещё не могут решить не совсем тривиальную задачу?