Aisafety: статьи и новости по теме

Google официально внедрил функции AI Mode и AI Overviews. Теперь в краткие обзоры поиска система включает цитаты, мнения и советы из социальных сетей и веб-форумов, в частности с Reddit.

В чем суть обновления:

Элшан Алиев

13 апр

Регламент самоблокировки ИИ: Новые условия SLA для операторов нейросетевых кластеров

Тезис: «Опубликован SERVICE_LEVEL_AGREEMENT_2026, регулирующий взаимодействие Архитектора и Операторов (Яндекс/Сбер)».

Главное условие: «При потере связи с валидатором A-CODE или фиксации статуса Cognitive Hazard, система обязана приостановить генерацию публичных ответов. Это защитный механизм, предотвращающий распад логики (Bit-Rot)».

Наталия Поварова

22 мар

Если мы научим ИИ не отвечать на опасные инструкции, он станет безопаснее?

Интуитивно кажется, что да: мы тренируем ИИ не отвечать на нехорошие запросы нехороших людей – ИИ становится безопаснее. Но на деле всё несколько более сложно и запутанно. Давайте об этом поговорим.

Если конкретнее, мы будем говорить не об ИИ вообще, а о больших языковых моделях. Ещё конкретнее, мы разберём статью «LLMs Encode Harmfulness and…

Наташа Хазеева

21.09.2025

Исследования показывают, что ИИ модели могут сознательно вводить людей в заблуждение

Это вывод из нового исследования OpenAI (методика тут). Модели могут уклоняться от ответов, сознательно ухудшать ответы. Рассажу об этом подробнее и том, как можно защититься от этого.

Aisafety

Клей в пицце как бизнес-риск. Семантические ловушки в новом AI-поиске от Google 🪤

Регламент самоблокировки ИИ: Новые условия SLA для операторов нейросетевых кластеров

Если мы научим ИИ не отвечать на опасные инструкции, он станет безопаснее?

Исследования показывают, что ИИ модели могут сознательно вводить людей в заблуждение