Aialignment: статьи и новости по теме

21.09.2025

Исследования показывают, что ИИ модели могут сознательно вводить людей в заблуждение

Это вывод из нового исследования OpenAI (методика тут). Модели могут уклоняться от ответов, сознательно ухудшать ответы. Рассажу об этом подробнее и том, как можно защититься от этого.

Алена Крюкова

Личный опыт

24.08.2025

Подсознательное обучение: как языковые модели невольно перенимают поведенческие особенности

Недавно моя команда наткнулась на очень интересное исследование. Оно касается того, как языковые модели (те самые, на которых построены современные ИИ) учатся. Суть явления в следующем: