🤖 Итоги недели в мире ИИ и обзоры новых сервисов: ИИ помог расшифровать алфавит кашалотов

Привет!

Мы запустили еженедельную email-рассылку, посвященную последним новостям и тенденциям в мире искусственного интеллекта. Наша цель – держать подписчиков в курсе самых интересных открытий, исследований и приложений ИИ.

В еженедельных письмах ты найдешь:

Новости о прорывных исследованиях в области машинного обучения и нейросетей.
Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
Статьи об этических аспектах развития технологий.
Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
Обзоры инструментов и библиотек для разработки нейронных сетей.
Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.

✉ Подписаться на рассылку

OpenAI заключила соглашение с платформой Stack Overflow об использовании ее базы знаний для обучения GPT, что вызвало неоднозначную реакцию сообщества; Канадский стартап Upend запустил ИИ-поисковик с рекордным количеством языковых моделей; Microsoft завершает работу над своей моделью MAI-1.

Канадский стартап Upend запустил ИИ-поисковик, который использует рекордное среди аналогичных сервисов количество LLM – почти 100 – и поддерживает загрузку файлов.

OpenAI в ближайшее время планирует запустить собственный ИИ-поисковик – SearchGPT, который может стать мощным конкурентом Google и Perplexity.

ИИ помог ученым расшифровать фонетический алфавит кашалотов и обнаружить 27000 астероидов, незамеченных на старых изображениях, полученных с телескопов.

Язык кашалотов оказался даже более сложным, чем считалось ранее

Microsoft почти закончила работу над созданием MAI-1, языковой модели на 500 млрд параметров. Это меньше, чем у GPT-4 от OpenAI, но этот шаг подчеркивает решение Microsoft опираться в дальнейшем только на собственные разработки.

OpenAI заключила соглашение с платформой Stack Overflow: богатейшая база знаний ресурса будет использоваться в обучении новых GPT-моделей. Партнерство с OpenAI компенсирует снижение трафика, с которым столкнулась платформа на фоне популярности ChatGPT. Многим пользователям Stack Overflow не понравилась эта идея: они начали удалять свои ответы, чтобы информация не досталась ChatGPT, и получили пожизненную блокировку.

🤖✍ Все самое полезное про ИИ-помощников вроде ChatGPT, Gemini, Bing и других вы найдете на нашем телеграм-канале «Библиотека нейротекста»

Сеть Колмогорова-Арнольда – альтернатива многослойному персептрону

Сеть Колмогорова-Арнольда (Kolmogorov-Arnold Network, KAN) – это новая архитектура нейронных сетей, предложенная недавно исследователями из Массачусетского технологического института. KAN основана на теореме Колмогорова-Арнольда, созданной в середине 1950-х. Попытки практического использования теоремы для создания нейросети с новой архитектурой, отличной от многослойного персептрона (MLP), начались еще в 1993 году. Но лишь в начале 2024 года эти усилия увенчались успехом. Авторы утверждают, что KAN архитектура делает нейросеть более интуитивной, эффективной и в перспективе может стать фундаментом для моделей, способных решать сложные задачи, недоступные для нынешних разработок.

Основная идея KAN заключается в том, чтобы переосмыслить роль и работу функций активации в нейронных сетях. В традиционных многослойных персептронах функции активации (например, ReLU или сигмоида) являются фиксированными и не обучаемыми компонентами. Они применяются после умножения входных данных на веса и добавления смещения.

В сетях KAN функции активации заменены на обучаемые одномерные функции, которые действуют как совмещенные весовые коэффициенты и функции активации для каждого отдельного входа. Эти функции адаптируются в процессе обучения вместе с остальными параметрами сети.

KAN еще очень новая концепция, и ее реальные преимущества и недостатки предстоит оценить. Главное отличие между традиционными многослойными персептронами и новой архитектурой Колмогорова-Арнольда заключается в том, как они обрабатывают нелинейности и используют функции активации.

В многослойных персептронах:

Входные данные умножаются на весовые коэффициенты (W), к ним добавляется смещение (B).
Затем результат проходит через фиксированную нелинейную функцию активации (σ), например ReLU или сигмоиду.
Выражение имеет вид: f(x) = σ(W * x + B)

В архитектуре KAN:

Вместо фиксированных функций активации используются обучаемые одномерные функции φ, которые действуют как весовые коэффициенты и функции активации одновременно.
Эти функции φ применяются к каждому входу по отдельности, а затем их результаты объединяются нелинейной функцией Φ на следующем слое.
Выражение имеет вид: f(x1, x2) = Φ2(φ2,1(φ1,1(x1) + φ1,2(x2)))

Главные особенности KAN:

Нелинейность применяется к каждому входу отдельно до их объединения, что обеспечивает более точный контроль над влиянием входных данных.
Функции активации являются обучаемыми и специфичными для каждого входа, в отличие от общих фиксированных функций в MLP.
Нелинейность перемещена на ребра (входные соединения), а не находится в самих нейронах.

Подробнее основные отличия KAN от MLP разобраны в этой статье.

Секрет производительности LlaМА 3*

Компания Meta* утверждает, что благодаря оптимизированной архитектуре LlaMA 3* способна генерировать текст и код беспрецедентного качества. Как именно модели удалось достичь рекордных результатов на стандартных бенчмарках, рассказывается в этой статье.

LlaMA 3* основана на оптимизированной архитектуре трансформера, и состоит из двух ключевых компонентов – слоя самовнимания и позиционно-кодированного сверточного слоя.

Слой самовнимания:

Вычисляет взвешенную сумму входных векторов, где веса определяются релевантностью каждого входа к текущему положению.
Использует 128 блоков внимания, каждый из которых независимо сканирует входную последовательность.

Позиционно-кодированный сверточный слой:

Состоит из двух полносвязных слоев с нелинейной активационной функцией между ними.
Применяется одинаково ко всем позициям во входной последовательности для извлечения более сложных признаков.
Размерность скрытого слоя равна 5325.

Блоки самовнимания и сверточные слои чередуются, образуя 32 блока трансформера. Выход предыдущего блока подается на вход следующего.

Как работает LlaMA 3*:

Входная последовательность токенов (максимум 8000) преобразуется в матрицу векторов размером 8000 x 128000 (размер словаря).
Матрица проходит операцию эмбеддинга, уменьшая размерность до 8000 x 4096 (размер признаковых векторов).
Результат обрабатывается 32 блоками трансформера, генерируя выходную матрицу 8000 x 4096.
Финальная матрица преобразуется обратно в размер словаря (8000 х 128000) для выбора следующего предсказанного токена.

Упрощенная схема работы LlaMA 3*

🤖🎨 Все самое полезное про нейросети для генерации изображений вы найдете на нашем телеграм-канале «Библиотека нейрокартинок»

Как «думают» трансформеры

Исследователи выяснили, какую внутреннюю структуру создают трансформеры при обучении на задаче предсказания следующего слова/токена в тексте. Чтобы проанализировать этот механизм, исследователи сгенерировали специальный набор обучающих данных с помощью скрытой марковской модели (СММ) с известной структурой внутренних состояний и правилами перехода между ними. Затем они обучили трансформер предсказывать следующий токен на этих искусственных данных.

Ожидалось, что для хорошего предсказания трансформер должен как-то смоделировать внутреннюю структуру СММ, которая породила данные, причем исследовали заранее предвидели, что сделает он это особым образом. По теории вычислительной механики, для оптимального предсказания следующего токена нужно отслеживать не просто скрытые состояния СММ, а вероятностное распределение убеждений о текущем состоянии СММ, которое постоянно обновляется с новыми токенами. Это называется смешанной структурой состояния (ССС).

В эксперименте исследователи действительно обнаружили, что трансформер как бы строит ССС внутри себя. Это проявлялось в том, что определенная линейная проекция активаций внутренних слоев трансформера имела фрактальную геометрическую структуру, предсказанную теорией ССС для данной СММ. Вывод – трансформеры при обучении на предсказании токенов не просто строят модель данных, но и создают мета-уровень обновления вероятностных убеждений относительно состояний этой модели. Это более богатая структура, чем сама модель данных.

Результат этого исследования предоставляет формальную основу для понимания внутренних вычислений современных языковых моделей и потенциально может помочь в задачах интерпретируемости и обеспечения безопасности ИИ.

Контекстное обучение оказалось эффективнее, чем файн-тюнинг

Исследователи из Университета Карнеги-Меллона и Тель-Авивского университета обнаружили, что включение множества примеров непосредственно в промпт (этот метод называется контекстным обучением) дает лучшие результаты, чем трудоемкий процесс файн-тюнинга. Эффективность контекстного обучения прямо связана с увеличением объема контекстного окна – чем больше контекст, который способна обработать модель, тем эффективнее обучение, причем это особенно заметно по задачам с множеством возможных ответов.

Для отбора релевантных примеров в эксперименте использовался известный алгоритм ранжирования BM25, который выбирал наиболее подходящие примеры из большого набора данных для каждого нового вопроса. Это улучшало результаты по сравнению со случайным выбором примеров.

Было отмечено, что контекстное обучение проигрывает файн-тюнингу только в том случае, когда для решения очень сложной задачи требуется настолько большое количество примеров, что контекст достигает объема, который модель уже не может обработать. Во всех остальных случаях контекстное обучение – более эффективный и производительный метод по сравнению с файн-тюнингом, несмотря на то, что модель фактически не обучается на примерах, а просто использует описанные в них подходы для решения нужной задачи.

🤖🦾 Все самое полезное про роботов, беспилотники, автопилоты и интернет вещей вы найдете на нашем телеграм-канале «Библиотека робототехники и беспилотников»

Devv – новый ИИ-поисковик, предназначенный для разработчиков.

SendFame – создает видеоролики со знаменитостями, произносящими заданный текст.

AI Commits – генерирует сообщения коммитов.

AI Photo Editor – отредактирует фото до неузнаваемости: изменит стиль, добавит детали, заменит фон.

Linkquire – посмотрит YouTube видео, напишет краткое содержание ролика и ответит на вопросы.

Transcript LOL – сделает транскрипты подкастов, видео и встреч. Похожий сервис – MeetGeek.

Flownote – мобильное приложение для суммаризации содержания встреч и автоматического создания заметок.

VoiceCheap – выполнит перевод и дубляж видео на любом языке.

Dreamwave – на основе 5+ изображений сделает серию профессиональных портретов – индивидуальных или групповых. Похожий инструмент – 1photoai.

Profile Picture Maker – генерирует высококачественные фото для профиля (в любом нужном стиле) на основе селфи.

Remini – на основе 8-12 селфи сгенерирует профессиональную фотосессию. При этом внешностью и возрастом можно управлять – например, сделать из фото взрослого человека его портрет в детстве, или представить женщину в интересном положении. Помимо этого, Remini реставрирует поврежденные низкокачественные фото и видео.

На этом все, до встречи через неделю!

* LlaMA 3 принадлежит компании Meta, деятельность которой признана экстремистской и запрещена на территории РФ.

Автор рассылки: Наталья Кайда

✉ Подписаться на рассылку

🤖 Итоги недели в мире ИИ и обзоры новых сервисов: ИИ помог расшифровать алфавит кашалотов

📰 Новости

❓ Как это работает

🛠 Инструменты