{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

13 дек 2023 13.12.2023

Краткое содержание State of AI 2023

Полный рисерч -

Вышел GPT-4, который по своим характеристикам превосходит все остальные LLM, а также многих людей

GPT-4 - это новейшая LLM OpenAI. В отличие от только текстовой GPT-3 и последующих версий, GPT-4 является мультимодальной: она обучена как на тексте, так и на изображениях, и, помимо прочего, может генерировать текст на основе изображений. На момент выпуска он уже превысил по возможному объему входных данных 8 192 токенов лучший из предыдущих GPT-3.5. Разумеется, он обучается с помощью RLHF. Благодаря этим достижениям GPT-4 на момент выхода данного отчета является бесспорно самой совершенной моделью ИИ.

OpenAI провела комплексную оценку GPT-4 не только на классических эталонах НЛП, но и на экзаменах, предназначенных для оценки человека (например, Bar exam, GRE, Leetcode).
GPT-4 - лучшая модель по всем показателям. Она решает некоторые задачи, которые не смог решить GPT-3.5, например, Единый экзамен по адвокатуре, где GPT-4 набрал 90% против 10% у GPT-3.5. В большинстве задач добавленный компонент зрения оказал лишь незначительное влияние, но в других он помог очень сильно.
По данным OpenAI, хотя GPT-4 по-прежнему страдает от галлюцинаций, она оказывается фактически верной на 40% чаще, чем предыдущая лучшая модель ChatGPT на наборе данных о правдивости, созданных для обмана моделей искусственного интеллекта (adversarial truthfulness dataset).

Ложные обещания имитации проприетарных LLM, или как RLHF остается лидером

Исследователи из Беркли показали, что Файн-тюнинг небольших LLM на базе более крупных и более способных LLM приводит к созданию моделей, которые стилистически впечатляют, но часто выдают неточный текст.

Исследователи рассматривают ряд предварительно обученных LLM разного размера и на разном количестве данных. Показано, что при фиксированном размере модели использование большего количества имитационных данных фактически ухудшает качество вывода. В свою очередь, более крупные модели выигрывают от использования имитационных данных.

Вслед за ChatGPT многие лаборатории задались целью ответить на вопрос: Можем ли мы создать модели, столь же способные и безопасные, как LLM от OpenAI, но при этом значительно сокращающие человеческий контроль?

Другие подходы полностью обходятся без использования обучения с подкреплением. В проекте Less is More for Alignment (LIMA) компания Meta утверждает, что необходимо использовать несколько (в ее статье - 1 000) очень тщательно подобранных подсказок и ответов. Согласно человеческим оценкам результатов работы модели, LIMA конкурирует с GPT-4 в 43% случаев.
В работе "LLMs can self-improve" исследователи Google показали, что LLM могут совершенствоваться, тренируясь на собственных результатах. Аналогично, Self-Instruct представляет собой структуру, в которой модель генерирует собственные инструкции, входные и выходные образцы и обрабатывает их для точной настройки своих параметров. Еще одна работа в этом направлении - Self-Alignment with Instruction Backtranslation компании Meta.
Стэнфордские исследователи использовали этот последний подход для генерации инструкций и выходов с помощью GPT-3.5 и тонкой настройки LLaMa-7B от Meta.

Технический отчет GPT-4 забил гвоздь в гроб исследований SOTA LLM...

OpenAI опубликовала технический отчет по GPT-4, в котором не раскрыла никакой полезной для исследователей ИИ информации, что свидетельствует об окончательной индустриализации исследований в области ИИ. Та же участь постигла и технический отчет Google PaLM-2, а компания Anthropic (побочный продукт OpenAI) не удосужилась выпустить технический отчет по своим моделям Claude.

...если только LLaMas не переломит тенденцию

В феврале 23-го года компания Meta выпустила серию моделей под названием LLaMa. На момент выпуска они выделялись как наиболее способные модели, обученные исключительно на общедоступных наборах данных. Первоначально компания Meta предоставляла доступ к весовым коэффициентам моделей LLaMa по запросу только исследователям, однако эти коэффициенты быстро утекли в Интернет.

В моделях LLaMa-1 используются обычные трансформаторы, с небольшими изменениями в архитектуре. Авторы также внесли некоторые изменения в оптимизатор и в реализацию внимания. В результате "при обучении 65Б-параметрической модели код обрабатывает около 380 токенов/сек/ГПУ на 2048 графических процессорах A100 с 80 ГБ оперативной памяти. Это означает, что обучение на наборе данных, содержащем 1,4 Т токенов, занимает примерно 21 день".
Модели LLaMa-1 превосходят GPT-3 (оригинальную модель, а не варианты InstructGPT) и конкурируют с Chinchilla от DeepMind и PaLM от Google.

LLaMa дает старт гонке открытых(и) конкурентных больших языковых моделей

После того как Meta выпустила LLaMa-1, другие институты присоединились к движению по выпуску относительно больших языковых моделей. Среди них выделяются такие, как MPT-30B от MosaicML, Falcon-40B от TII UAE, RedPajama от Together, Pythia от Eleuther. В то же время происходила и другая динамика, когда сообщество разработчиков с открытым исходным кодом дорабатывало самые маленькие версии LLaMa на специализированных наборах данных и применяло их в десятках последующих приложений. Модель 7B от Mistral AI также недавно стала самой сильной среди малых моделей.

LLaMa-2: наиболее способный и общедоступный LLM?

В июле 23-го года была выпущена серия моделей LLaMa-2, дающая право на коммерческое использование (практически) всем желающим. Базовая модель LLaMa-2 практически идентична LLaMa-1, но доработана с помощью тюнинга инструкций и RLHF и оптимизирована для диалоговых приложений. В сентябре 2023 года количество загрузок Llama-2 составило почти 32 млн.

Предварительный обучающий корпус для LLaMa-2 содержит 2 триллиона токенов (увеличение на 40%).
LLaMa-2 70B конкурирует с ChatGPT на большинстве задач, за исключением кода, где она существенно отстает от него. А вот CodeLLaMa, доработанная версия для работы с кодом, выигрывает у всех моделей, не относящихся к GPT4.
По условиям Meta, использовать модели LLaMa-2 может любой желающий (имеющий достаточно оборудования для работы с моделями), если его коммерческое приложение на момент выхода LLaMa-2 не имело более 700 млн. пользователей.

GPT и LLaMAs в топе популярности

Наибольшее количество упоминаний на X (Twitter) (5430 раз) имеет ChatGPT, за ней следуют GPT-4 и LLaMA. Хотя наибольшее внимание уделяется проприетарным моделям с закрытым исходным кодом, растет интерес к LLM с открытым исходным кодом, допускающим коммерческое использование.

Актуальные темы

RLHF / Instruction-tuning стали самой трендовой темой с конца 2022 года.

Длина контекста - это новый параметр

Специалисты в области ИИ убедились, что при правильном обучении моделей количество их параметров является косвенным показателем их возможностей. Однако эти возможности иногда ограничиваются размером входных данных, которые могут обрабатывать языковые модели. В связи с этим все более важной темой исследований становится длина контекста.

Одним из самых заманчивых обещаний LLM являются их возможности "нескольких попыток”, т.е. способность LLM ответить на запрос по заданному вводу без дополнительного обучения конкретному случаю использования пользователем. Однако этому препятствует ограниченная длина контекста, что приводит к проблеме в вычислительной и оперативной памяти.
Для увеличения длины контекста LLM было использовано несколько инноваций. Некоторые из них принципиально уменьшают объем памяти, занимаемой вниманием (FlashAttention). Другие позволяют моделям обучаться на небольших контекстах, но делать выводы на более крупных (ALiBi) - это называется экстраполяцией длины - ценой минимальной настройки и удаления позиционных кодировок. Другие методы, заслуживающие внимания, включают RoPE и позиционную интерполяцию.
Среди длинноконтекстных LLM: Claude от Anthropic - 100К, GPT-4 от OpenAI - 32К, MosaicML MPT-7B - 65К+, LongChat от LMSys - 16К.

Lost in the Middle: длинные контексты (в основном) не оправдывают ожиданий

Гонка за наибольшей длиной контекста основывается на гипотезе, что большая длина контекста приведет к повышению производительности при выполнении последующих задач. Исследования, проведенные Samaya.ai, Калифорнийским университетом в Беркли, Стэнфордом и LMSYS.org, ставят эту гипотезу под сомнение: При большой длине входных данных даже самые лучшие языковые модели не справляются с некоторыми задачами, связанными с ответами на многодокументные вопросы и поиском ключевых значений.

Исследователи обнаружили, что производительность моделей была выше, когда релевантная для задачи информация поступала в начале или в конце ввода, с более или менее резким спадом в середине в зависимости от модели. Также было обнаружено, что производительность моделей снижается по мере увеличения длины входных данных.

Поддержание высоких требований к памяти

Увеличение длины контекста и большие массивы данных требуют архитектурных инноваций.

FlashAttention обеспечивает значительную экономию памяти за счет того, что внимание становится линейным, а не квадратичным по длине последовательности. FlashAttention-2 еще более улучшает вычисление матрицы внимания за счет меньшего количества нематмульных FLOPS, лучшего параллелизма и лучшего разделения работы. Результат - ускорение обучения в 2,8 раза по сравнению с моделями в стиле GPT.
Уменьшение числа битов в параметрах позволяет сократить как объем памяти, так и время ожидания LLM. В работе "The case for 4-bit precision: k-bit Inference Scaling Laws" на примере различных LLMs показано, что 4-битное квантование является универсально оптимальным для сокращения числа используемых битов.

Can small (with good data) rival big?

В своей пока еще в значительной степени исследовательской работе исследователи Microsoft показали, что при обучении малых языковых моделей (SLMs) на очень специализированных и курируемых наборах данных они могут конкурировать с моделями, которые в 50 раз больше. Они также обнаружили, что нейроны этих моделей более интерпретируемы.

Одна из гипотез, объясняющих, почему маленькие модели часто оказываются не так хороши, как большие, даже в узких задачах, заключается в том, что они "перегружаются" при обучении на очень больших, не очищенных наборах данных.
С помощью GPT-3.5 и GPT-4 исследователи создали TinyStories - синтетический набор данных, состоящий из очень простых коротких историй, но отражающий грамматику английского языка и общие правила рассуждений. Затем они обучили SLM на TinyStories и показали, что GPT-4 (который использовался в качестве инструмента оценки) предпочитает истории, сгенерированные 28M SLM, историям, сгенерированным GPT-XL 1.5B.

Иссякает ли запас данных, генерируемых человеком?

Если предположить, что нынешние темпы потребления и производства данных сохранятся, то, по прогнозам специалистов Epoch AI, "мы исчерпаем запасы низкокачественных языковых данных к 2030-2050 годам, высококачественных языковых данных - к 2026 году, а данных о визуалах - к 2030-2060 годам". Среди инноваций, которые могут опровергнуть гипотезы, изложенные в статье, следует отметить системы распознавания речи, например, Whisper от OpenAI, которые могут сделать все аудиоданные доступными для LLM, а также новые модели OCR, например, Nougat от Meta. По слухам, большое количество расшифрованных аудиоданных уже доступно для GPT-4.

Детекция реального и фальшивого

По мере того как модели генерации текстов и изображений становятся все более совершенными, все труднее становится решать давнюю проблему идентификации того, что именно генерируется искусственным интеллектом и не является ли это источником, защищенным авторским правом.

В исследовании Мэрилендского университета предложена новая технология "водяного знака" для создания собственных языковых моделей, т.е. "вставки в текст скрытого паттерна, незаметного для человека, но при этом позволяющего алгоритмически идентифицировать текст как синтетический". Идея заключается в том, чтобы выбрать несколько токенов случайным образом и увеличить вероятность того, что их генерирует LM. Они разработали алгоритм с открытым исходным кодом, включающий статистический тест, который позволяет уверенно обнаруживать водяные знаки.
Google DeepMind выпустила SynthID - инструмент, который встраивает цифровой водяной знак непосредственно в пиксели изображения. Незаметный для человеческого глаза, он способен идентифицировать сгенерированные изображения.

Vibe check: оценка лидеров и “вайбов” LLM общего назначения

По мере увеличения числа открытых и закрытых LLM пользователи сталкиваются с множеством недифференцированных LLM, обученных на более или менее одинаковых данных. В настоящее время стандартом сравнения возможностей моделей, основанным на сложных эталонных тестах, являются Стэнфордская таблица лидеров HELM и бенчмарк LLM Hugging Face. Но помимо бенчмарков или их комбинаций, при наличии таких гибких моделей пользователи, похоже, все же предпочитают более субъективные... вайбы.

HELM

State of LMs for code

Лидером по возможностям кода, безусловно, является GPT-4, а Code Interpreter или теперь уже Advanced Data Analysis приводят пользователей в восторг. Открытые альтернативы, такие как WizardCoder-34B от WizardLM и Unnatural CodeLLaMa, не уступают ChatGPT в бенчмарках кодирования, но их производительность в производстве пока не определена.

LLMs are learning to use software tools

Самым непосредственным способом влияния LLM на экономику сегодня является возможность выполнения обращений к различным внешним инструментам. Наиболее очевидным инструментом использования является веб-браузер, позволяющий поддерживать модель в актуальном состоянии, однако практики дорабатывают языковые модели на основе API-колл, что позволяет им использовать практически любые возможные инструменты.

Одним из примеров инструментального использования LLM является Toolformer от Meta и Университета Помпеу Фабра, в котором исследователи обучают модель на основе GPT-J самоконтролируемым образом "для принятия решения о том, какие API вызывать, когда их вызывать, какие переменные передавать и как наилучшим образом включить результаты в будущее предсказание токенов". Примечательно, что в процессе обучения Toolformer производит выборку вызовов API и сохраняет только те, которые приводят к снижению потерь при обучении.
Некоторые модели имеют более узкую направленность, как, например, Google's Mind's eye, где модели запускают симуляцию физики для ответа на вопросы физического рассуждения, в то время как другие распространяют этот подход на десятки тысяч возможных внешних инструментов.
LLM, способные использовать внешние инструменты, сегодня принято называть "агентами". Выйдя за рамки академических исследований, мы увидели множество инструментов, разработанных промышленностью и сообществом разработчиков с открытым исходным кодом, в частности, плагины ChatGPT, Auto-GPT и BabyAGI.

Open-ended learning with LLMs

Способные генерировать и выполнять код, LLM могут быть мощными агентами планирования в открытых мирах. Лучшим примером этого является Voyager, агент на базе GPT-4, способный рассуждать, исследовать и приобретать навыки в Minecraft.

Использование LLM для автономного вождения

LINGO-1 - это модель "зрение-язык-действие" компании Wayve, которая предоставляет комментарии к вождению, например, информацию о поведении водителя или обстановке за рулем. Она также может отвечать на вопросы в разговорной манере. LINGO-1 может изменить ситуацию с точки зрения объяснения сквозных моделей вождения.

PaLM-E: базовая модель для робототехники

PaLM-E - это универсальная модель общего назначения с 562 миллиардами параметров, обученная на данных о зрении, языке и роботах. Она способна управлять манипулятором в реальном времени и одновременно устанавливать новый уровень SOTA на эталоне VQA. Учитывая преимущество воплощенного интеллекта, PaLM-E лучше справляется с чисто языковыми задачами (особенно с геопространственными рассуждениями), чем текстовые языковые модели.

Автономная система, которая гоняет беспилотники быстрее, чем чемпионы мира среди людей

Это первая победа робота в соревновательном виде спорта (гонки дронов с видом от первого лица). Swift - это автономная система, которая может гоняться на квадрокоптере на уровне чемпионов мира, используя только бортовые датчики и вычисления. Он выиграл несколько заездов у трех чемпионов и показал самое быстрое время.

В Swift используется комбинация обучаемых и более традиционных методов. Он объединяет VIO-оценщик с детектором ворот, который оценивает глобальное положение и ориентацию дрона с помощью фильтра Калмана для получения точной оценки состояния робота.

The text-to-video generation race continues

Как и в прошлом году, борьба идет между диффузионными и масочными трансформаторными моделями видео (хотя алгоритмически они очень похожи). Прошлогодние Make-a-video и Imagen были основаны на диффузии, а Phenaki - на двунаправленном маскирующем трансформаторе.

VideoLDM - это модель скрытой диффузии, способная генерировать видео высокого разрешения (до 1280 x 2048!). Они строятся на основе предварительно обученных диффузионных моделей изображений и превращают их в генераторы видео путем временной тонкой настройки с помощью слоев временного выравнивания.
MAGVIT - это генеративный преобразователь видео с маской. Подобно Phenaki, он использует 3D-токенизатор для извлечения пространственно-временных токенов. В нем применен новый подход к маскированию. В настоящее время он имеет лучший показатель FVD в бенчмарках генерации видео и в 250 раз быстрее.

Instruction based editing assistants for text-image generation

В прошлом году появилось множество моделей генерации текстовых изображений: DALLE-2, Imagen, Parti, Midjourney, Stability и другие. Но управление генерацией требует больших экспериментов с подсказками и пользовательским синтаксисом. В этом году появились новые методы, обеспечивающие возможность генерации и редактирования изображений в стиле co-pilot.

InstructPix2Pix, используя предварительно обученный GPT3 и StableDiffusion, генерирует большой набор данных из триплетов {входное изображение, текстовая инструкция, сгенерированное изображение} для обучения модели условной диффузии под наблюдением. Редактирование происходит по принципу feed-forward без тонкой настройки/инверсии каждого изображения, что позволяет вносить изменения за считанные секунды.
Методы маскированной раскраски, такие как Imagen Editor, требуют предоставления модели наложения или "маски" для обозначения области, подлежащей изменению, а также текстовых инструкций.
Основываясь на этих подходах, такие стартапы, как Genmo AI's "Chat", предлагают интерфейс в стиле co-pilot для создания изображений с возможностью их семантического редактирования с помощью текста.

NeRFs meet GenAI

Генеративные модели на основе NeRF - перспективное направление для крупномасштабного создания 3D-активов. NeRF не только улучшились по скорости и качеству (см. HyperDiffusion, MobileNeRF, Neurolangelo и DynIBAR), но и позволили GenAI моделировать 3D-геометрию.

DreamFusion и Score Jacobian Chaining были первыми методами, использующими предварительно обученную модель диффузии двумерного текста в изображение для синтеза текста в трехмерное изображение. Первые попытки показывали карикатурно выглядящие 3D-модели отдельных объектов.
RealFusion настраивает предварительную диффузию для конкретного изображения с целью повышения его вероятности.
SKED изменяет только выбранную область NeRF, представленную несколькими направляющими эскизами. При этом сохраняется качество базового NeRF и обеспечивается соответствие отредактированной области семантике текстовой подсказки.
Instruct-Nerf2Nerf редактирует всю NeRF-сцену, а не область или генерирует ее с нуля. Они применяют модель скрытой диффузии к каждому входному изображению и итеративно обновляют NeRF-сцену, обеспечивая ее постоянство.

Более точные прогнозы погоды в настоящем времени и на более дальние расстояния

Краткосрочные прогнозы осадков (nowcasting) сегодня нечеткие, подвержены рассеиванию и выполняются медленно. Среднесрочные глобальные прогнозы погоды с использованием точного метода численного прогнозирования погоды требуют больших вычислительных затрат. Для решения обеих задач наученные методы и физически обоснованные модели, включающие соответствующие приращения, способны обеспечить повышение производительности, которое предпочитают профессиональные метеорологи. Новые эталонные наборы данных, такие как WeatherBench 2 от Google, способствуют разработке метеорологических моделей на основе данных.

NowcastNet - это нелинейная модель, использующая первые физические принципы и методы статистического обучения, объединенные в рамках глубокой генеративной модели. Оцениваемая 62 профессиональными метеорологами со всего Китая, модель заняла 1-е место в 71% случаев по сравнению с ведущими методами.

Pangu-Weather - это 3D-модель глубокого обучения с прайорами, специфичными для Земли, обученная на 39-летних глобальных данных и способная генерировать глобальную погоду на средние расстояния. Система может быть использована для более точного отслеживания циклонов на ранних стадиях по сравнению со статус-кво.

Наиболее значимые исследования проводятся в очень немногих местах

70% наиболее цитируемых работ по ИИ за последние 3 года имеют авторов из американских институтов и организаций.

Section 5: Predictions

10 прогнозов на ближайшие 12 месяцев

В голливудском продакшене для создания визуальных эффектов используется генеративный ИИ.
Компания, занимающаяся производством генеративного ИИ-медиа, расследуется на предмет его неправомерного использования в ходе предвыборной кампании в США в 2024 году.
Самосовершенствующиеся агенты ИИ превосходят СОТА в сложной среде (например, ААА-игра, использование инструментов, наука).
Рынки IPO в технологической сфере размораживаются, и мы видим как минимум один крупный листинг для компании, ориентированной на ИИ (например, Databricks).
Повальное увлечение масштабированием GenAI приводит к тому, что на обучение одной крупномасштабной модели группа тратит более 1 млрд. долл.
FTC США или CMA Великобритании расследуют сделку Microsoft/OpenAI по антимонопольным соображениям.
Мы видим ограниченный прогресс в области глобального управления ИИ помимо добровольных обязательств высокого уровня.
Финансовые институты запускают долговые фонды GPU, чтобы заменить венчурные фонды для финансирования вычислений.
Песня, созданная искусственным интеллектом, попадает в Топ-10 Billboard, Hot 100 или в Топ-хиты Spotify 2024.
По мере значительного роста рабочих нагрузок и стоимости вычислений крупная компания, занимающаяся разработкой ИИ (например, OpenAI), приобретает компанию, занимающуюся разработкой чипов для ИИ, ориентированных на вычисления.

Подписывайтесь на мой канал "Growth Marketing Штуки" -

59 показов

345 открытий

Комментарии

Написать комментарий...

-3 комментариев

Раскрывать всегда