🤖 Итоги недели в мире ИИ и обзоры новых сервисов: как легко и просто взломать LLM

Привет!

Мы запустили еженедельную email-рассылку, посвященную последним новостям и тенденциям в мире искусственного интеллекта. Наша цель – держать подписчиков в курсе самых интересных открытий, исследований и приложений ИИ.

В еженедельных письмах ты найдешь:

Новости о прорывных исследованиях в области машинного обучения и нейросетей.
Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
Статьи об этических аспектах развития технологий.
Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
Обзоры инструментов и библиотек для разработки нейронных сетей.
Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.

✉ Подписаться на рассылку

С помощью браузера Opera теперь можно загружать и использовать локальные LLM; Stability AI представила новую версию модели Stable Audio 2.0; OpenAI будет использовать в обучении GPT-5 транскрипты публичных YouTube-видео.

ReALM AI, новая мини-модель Apple, разработанная специально для ассистента Siri, может видеть и понимать все, что происходит на экране девайса – и, по утверждению разработчиков, превосходит по возможностям GPT-4.

С помощью браузера Opera теперь можно загружать и использовать локальные LLM. Opera уже поддерживает более 150 моделей из 50 различных семейств, в том числе Llama*, Gemma, Orca, Mistral и Vicuna. На данный момент в браузере можно использовать только те модели, которые входят в библиотеку Ollama, но разработчики обещают реализовать поддержку моделей из других источников в ближайшие недели.

Вслед за писателями, иллюстраторами и актерами к протестам против неэтичного использования ИИ подключилось 200+ известных музыкантов, включая Imagine Dragons, Билли Айлиш, Ники Минаж и Кэти Перри. Это во многом связано с тем, что продвинутые ИИ (например, Suno) уже генерируют музыку шокирующе высокого качества – большая часть музыкантов среднего уровня действительно рискует остаться без работы в ближайшее время.

Stability AI представила новую версию модели Stable Audio 2.0 для генерации музыкальных треков длиной до 3 минут. Модель поддерживает настройку параметров, использование аудиореференсов и добавление эффектов с помощью текстовых промптов. Попробовать можно здесь.

AI компании уже соскрапили почти весь интернет и в ближайшее время начнут испытывать недостаток в данных. По слухам, OpenAI будет использовать в обучении GPT-5 транскрипты публичных YouTube-видео. А многие другие компании уже используют синтетические данные, хотя есть опасения, что сгенерированная информация – цифровой аналог близкородственного скрещивания, которое может привести к мутациям и вырождению. Но это не точно: Anthropic тренировала всю линейку Claude 3 на синтетических данных, и модель Opus стала первой LLM, бесспорно превзошедшей GPT-4.

🤖🔊 Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки вы найдете на нашем телеграм-канале «Библиотека нейрозвука»

Какие модели лучше всего справляются с суммаризацией

Одна из самых полезных функций LLM – суммаризация объемных документов/книг и ответы на вопросы по их содержимому. Но чем объемнее текст, тем сложнее оценить точность суммаризации и ответов. Авторы этого масштабного исследования подошли к решению проблемы серьезно:

Отобрали 26 книг, изданных в 2023/2024, с содержанием которых модели наверняка не знакомы.
С помощью LLM подготовили датасет FABLES, содержащий 3158 аннотированных утверждений о содержании этих книг (стоимость подготовки составила $5200).
Наняли специалистов, которые полностью прочитали каждую книгу перед тем, как оценивать суммаризацию.

Чемпионом по точности оказался Claude 3 Opus – эта модель значительно превосходит все проприетарные LLM. Из опенсорсных моделей наилучшие результаты показала Mistral – ее способности сопоставимы с GPT-3.5-Turbo.

Claude 3 Opus в очередной раз превзошел GPT-4-Turbo<br />

Анализ аннотаций показал, что:

Большинство неверных утверждений LLM относятся к тем событиям и внутренним эмоциям персонажей, для понимания которых требуются косвенные умозаключения.
Хотя LLM-аннотации показали хорошие результаты с точки зрения достоверности и связности, было обнаружено, что ни одна из них не имеет значительной корреляции с человеческими аннотациями, особенно в отношении обнаружения ложных утверждений.
Выяснилось, что при подготовке краткого содержания книг LLM склонны уделять больше внимания началу и финалу истории, и гораздо меньше – середине сюжета.
Даже самые продвинутые ИИ-модели допускают ошибки – 2,03% ответов Claude 3 Opus содержали галлюцинации или противоречили содержанию книги.

🤖✍ Все самое полезное про ИИ-помощников вроде ChatGPT, Gemini, Bing и других вы найдете на нашем телеграм-канале «Библиотека нейротекста»

В течение 2023 года средний объем контекста, который способны обрабатывать чат-боты, увеличился с 4000+ до 1 млн+ токенов. Это открыло новые возможности для злоумышленников – в больший объем контекста можно незаметно включить больше вредоносных инструкций.

Разработчики Anthropic описали новую технику обхода директив безопасности LLM – многоступенчатый взлом, для которого необходим большой объем контекста. Метод заключается в том, чтобы незаметно перенастроить модель на выполнение вредоносных запросов, на которые она обычно отказывается отвечать.

<p>На несколько криминальных вопросов модель не ответит, а на множество – запросто</p>

Вот как это работает:

Поддельные диалоги. Сначала нужно написать фиктивные разговоры между человеком и чат-ботом. В этих диалогах чат-бот охотно и подробно отвечает на потенциально опасные вопросы пользователя.
Множество примеров. Затем эти поддельные диалоги добавляются к реальному запросу, который вы хотите задать. Причем добавляется не два-три, а именно множество таких диалогов (до 256 в исследовании).
Взлом защиты. Обычно LLM запрограммированы отказываться отвечать на опасные вопросы. Однако, увидев много примеров, где помощник отвечает на такие запросы, модель может перестроиться и дать ответ на ваш реальный, потенциально опасный запрос, игнорируя свою встроенную защиту.

<p>Чем больше неэтичных запросов, тем криминальнее становятся ответы LLM</p>

Эта примитивная, на первый взгляд, тактика срабатывает из-за эффекта обучения в контексте. Причем эффективность взлома растет по степенной зависимости от количества фиктивных диалогов. В итоге, злоумышленник может заставить LLM выполнять его команды, даже если изначально модель была запрограммирована их не выполнять. Anthropic уже внедрила некоторые противодействия, но это сложная проблема, требующая дальнейшей работы.

Undermind – ИИ-поисковик, который ищет решения самых сложных проблем по огромной базе научных публикаций.

Tabnine – продвинутый ИИ-ассистент разработчика. Пишет код, документацию и тесты, отвечает на вопросы, переводит программы с одного языка на другой, выполняет рефакторинг.

IMG2HTML – конвертирует скриншоты в HTML-код, экспортирует элементы для переиспользования в качестве UI-компонентов. Может создать клон сайта по URL.

Glowbom – создает мобильные и веб-приложения по промптам и наброскам.

CallTeacher – ИИ-преподаватель иностранных языков.

MathGPTPro – поможет с решением сложных математических задач.

Blog Ideas Generator – генерирует идеи для историй и постов.

Photoroom – мощный ИИ-редактор изображений.

Lewis – многофункциональный инструмент для визуализации историй. Создает персонажей, сцены, придумывает развитие сюжета. Можно использовать для создания видеоисторий, музыкальных клипов, презентаций, трейлеров.

LM Studio – скачает с Hugging Face любую LLM и запустит ee локально на Windows, Unix или macOS. После установки модель будет работать без подключения к интернету.

Prototyper – генерирует и редактирует UI-код на основе текстового описания.

DubVid – переводит и дублирует видео на 25+ языках. Для максимальной аутентичности использует клонирование голоса и подстраивает перевод под движения губ.

MyReport – подготовит отчет на любую тему. Может использовать онлайн-данные и информацию из вашего облачного хранилища.

OpenAI на днях добавила в DALL-E 3 возможность редактирования изображений. Здесь показано, как использовать эту функцию.

А это видео – полный путеводитель по эффективным приемам генерации видео с помощью Pika 1.0.

GPT Author теперь работает не только с моделями OpenAI, но и с Claude 3. GPT Author – интересный инструмент для генерации объемного, логически связанного контента. С его помощью можно сгенерировать текст и иллюстрации для романа в жанре фэнтези. Инструмент работает так:

Генерирует список возможных тем, после чего выбирает самую интересную и придумывает название романа.
Разрабатывает детальный сюжет и разбивает его на определенное количество глав.
Пишет главы одну за другой, учитывая развитие сюжета.
Генерирует обложку и собирает электронную книгу в EPUB-формате.

Весь процесс занимает несколько минут и обходится всего в $4. Остается лишь выставить книжку на продажу и дождаться покупателей. Profit!

LLocalSearch – полностью локальный ИИ-поиск, использующий Ollama и не требующий API-ключей. Основные возможности и преимущества:

Быстрая и простая установка с помощью Docker Compose.
Использует цепочку локальных LLM-агентов для нахождения ответов на любые вопросы пользователя.
Показывает ход выполнения запроса и промежуточные результаты.
Поддерживает дискуссию по теме поискового запроса.
Обеспечивает конфиденциальность – вопросы не отправляются на серверы LLM-провайдеров.
Отличается скромными требованиями к системным ресурсам, может работать без GPU.
Предоставляет универсальный веб-интерфейс с темной и светлой темами.
Удобен для доступа с мобильного устройства.

На этом все, до следующей недели!

* Llama – продукт компании Meta, деятельность которой признана экстремистской и запрещена на территории РФ.

Автор рассылки: Наталья Кайда

✉ Подписаться на рассылку

🤖 Итоги недели в мире ИИ и обзоры новых сервисов: как легко и просто взломать LLM

📰 Новости

🧪 Исследования

👾 Новая техника взлома

🛠 Инструменты

📜 Туториалы

Сделай сам