Почему Llama 3.1 - лучшая открытая нейросеть

В последние месяцы выходит большое количество нейросетей, но только небольшое количество из них заслуживает внимания. Сегодня поговорим о нейросети *Meta Lama 3.1 (признана в РФ экстремистской организацией и запрещена).

Нейросеть Llama 3.1 - это одна из самых мощных и способных моделей, разработанных компанией *Meta (признана в РФ экстремистской организацией и запрещена). В апреле 2024 года вышло превью этой модели, и уже первая версия показала хорошие результаты среди открытых моделей. Llama 3.1 доступна в трех вариантах: 405 млрд, 70 млрд и 8 млрд весов. Мы рассмотрим возможности и преимущества каждой версии, а также сравним их с другими популярными моделями.

Llama 3.1 доступна в трех вариантах: 405b, 70b и 8b. Каждая версия имеет свои возможности и ограничения. Версия 405b - это самая мощная модель, которая может запускаться на серверах с большим количеством памяти.

Версия 70b - это наиболее востребованная модель, которая может запускаться на относительно простом железе, например, на двух картах RTX 3090 или четырех картах RTX 3090. Версия 8b - это самая легкая модель, которая может запускаться на процессорах или компьютерах с большим количеством видеопамяти. Все нейросети Llama 3.1 имеют контекстное окно 128k.

Нейросети Llama 3.1 в сравнении с Llama 3:

Почему Llama 3.1 - лучшая открытая нейросеть

Llama 3.1 405b показала хорошие результаты по сравнению с другими популярными моделями, такими как GPT-4 и Claude 3.5 Sonnet. Модель 70b показала хорошие результаты в сравнении с моделями с подобным количеством параметров.

Сравнение нейросетей Llama 3.1 c другими нейросетями:

Почему Llama 3.1 - лучшая открытая нейросеть

Llama 3.1 может быть использована для различных применений, таких как синтетическая генерация данных и дистилляция моделей. Модель может быть использована для написания кода, ответов на вопросы и других задач. Llama 3.1 также может быть использована для создания агентных систем, которые могут взаимодействовать с пользователем и выполнять различные задачи.

Ключевое отличие новой версии заключается в увеличении контекста до 128k токенов. У Llama3 этот показатель составляет 8k токенов. Это увеличение особенно важно, поскольку в ряде случаев ограниченный контекст был серьезным препятствием.

Например, при использовании модели Llama3 70b для написания кода, контекст в 8 000 токенов часто оказывался недостаточным. Теперь, с расширенным контекстом в 128k токенов, можно включить практически весь код проекта в запрос, и модель способна давать ответы с учетом всего кода проекта.

Модель Llama 405b была обучена на обширном наборе данных и демонстрирует высокое качество. Нейросети размером 70b и 8b были получены путем дистилляции из этой крупной модели.

Дистилляция - это процесс, при котором большая нейросеть обрабатывает данные, а меньшая нейросеть обучается предсказывать те же самые данные.

В результате меньшая нейросеть учится предсказывать аналогичные результаты, что и большая нейросеть, но с меньшим количеством параметров. Хотя меньшая нейросеть не может запомнить всё из-за своего размера, она всё же может запомнить значительное количество данных. Выбор данных для дистилляции позволяет качественно обучить меньшую модель для применения в продакшене, где использование большой модели ограничено относительно высокой стоимостью.

На моем ютуб канале есть видео о запуске Llama3 и других нейросетей на своем компьютере. Специально для нейросетей я собрал компьютер на серверном железе с 4-мя видеокартами Nvidia RTX 3090ti. Я использую проект vLLM для поднятия OpenAI - совместимого сервера в докер контейнере.

Если вам интересны дальнейшие тесты и примеры использования нейросетей, то можете найти их в моем ютуб канале.

Перед покупкой своего железа я тестировал различные вариации видеокарт от компании immers.cloud. Видеокарты RTX 3090/3090ti показали наилучшее соотношение цена/производительность для запуска LLM.

Есть более быстрые видеокарты 4090, A100, H100, но они значительно дороже, чем 3090/3090ti. Есть более дешевые видеокарты игрового уровня, но у них меньше видеопамяти и ниже скорость работы.

Читать также:

22
Начать дискуссию