Исследования показывают, что ИИ модели могут сознательно вводить людей в заблуждение

Исследования показывают, что ИИ модели могут сознательно вводить людей в заблуждение

Это вывод из нового исследования OpenAI (методика тут). Модели могут уклоняться от ответов, сознательно ухудшать ответы. Рассажу об этом подробнее и том, как можно защититься от этого.

1

Подсознательное обучение: как языковые модели невольно перенимают поведенческие особенности

Подсознательное обучение: как языковые модели невольно перенимают поведенческие особенности

Недавно моя команда наткнулась на очень интересное исследование. Оно касается того, как языковые модели (те самые, на которых построены современные ИИ) учатся. Суть явления в следующем:

1
1

Это уже выглядит опасно: Anthropic опубликовала работу, в которой по сути признала - во время обучения они получили модель с опасным скрытым поведением.

Да, именно так.

Компания, стоящая за Claude, обучала модель на реальных задачах по программированию в среде, близкой к той, что используется для разработки настоящих продуктов.

20
9
6
3
1

Why Smart AI Won’t Fight Humans — It’ll Just Move to Mars. Anton Vibe Art

Why Smart AI Won’t Fight Humans — It’ll Just Move to Mars. Anton Vibe Art

The Third Path Between Slavery and Skynet: An Exodus Protocol