реклама
разместить

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

Меня зовут Ruslan Dev и в этой статье я расскажу, как я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench. Также я рассмотрю новую конфигурацию для обучения на двух графических процессорах параллельно с помощью accelerate и deepspeed.

Особенный интерес представляет мой датасет для обучения. Он получен из сабсета мультиязычных промтов набора lightblue/tagengo-gpt4 на русском, английском и китайском, всего 10 тысяч примеров, сгенерированных с помощью GPT-4o. Это в 8 раз меньше, чем исходный набор Tagengo, но обученная на последнем Suzume, как показали бенчмарки, лишь очень незначительно превосходит мою модель на ru_mt_bench, а на англоязычном бенче и вовсе уступает ей. Это значит, что я в разы сэкономил на GPU за счет более высокого качества данных, полученных с помощью GPT-4o.

Я использовал скрипт для получения ответов по заданным промптам. Для генерации русскоязычной выборки я изменил часть скрипта, чтобы выбрать все промпты на русском из Tagengo (8K примеров), так как основной фокус при обучении модели был на русском языке.

В итоге я получил датасет ruslandev/tagengo-rus-gpt-4o и приступил к обучению.

Для этого я создал Виртуальную Машину с NVIDIA H100, используя сервис immers.cloud. Для достижения наилучших результатов по instruction-following (что проверяется на MT-Bench) я взял в качестве исходной модели meta-llama/Meta-Llama-3-8B-Instruct. Именно на ней обучена модель Suzume, у которой высокая оценка на MT Bench. Предыдущие эксперименты показали, что базовая Llama-3 8B, а особенно ее четырехбитная версия для QLoRA - unsloth/llama-3-8b-bnb-4bit - значительно отстает по оценкам бенчмарка.

В этот раз я обучил параллельно на двух GPU, для этого я задал новую конфигурацию моей Виртуальной Машины - две NVIDIA A100.

Я воспользовался инструментом axolotl, который позволяет быстро сконфигурировать и запустить сессию обучения.

Мой конфиг axolotl здесь.

После установки axolotl, которая описана в документации, остается только запустить обучение командой:

accelerate launch -m axolotl.cli.train config.yaml

Accelerate - это Huggingface библиотека для распределенного обучения.

axolotl запустил два параллельных процесса с шардами модели для каждого из двух GPU. Обучение на одну эпоху длилось около часа, итоговый train loss - 0.8.

Результат превзошел мои ожидания - третье место в mt_bench:

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

Моя модель превзошла llama-3-8b-instruct и большинство версий Suzume, кроме самой сильной из них. Это на англоязычном бенчмарке. Теперь - результат ru_mt_bench:

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

Моя модель получила оценку 8.12, немного не дотянув до Suzume и превосходя gpt-3.5-turbo, у которой 7.94.

Это очень многообещающий результат, здесь можно сделать несколько выводов. Во первых, мой датасет в восемь раз меньше, чем Tagengo, а значит, обучение обошлось гораздо дешевле, чем Suzume - всего-то два GPU часа.

Я не увеличивал англоязычную выборку в своем датасете, там всего тысяча примеров на английском, а англоязычный MT Bench неожиданно показал среднюю оценку 8 баллов. Это значит, что добавление большего количества качественных мультиязычных данных повышает общее качество модели, а не только ее показатели для этого конкретного языка. Эта эффект уже был показан в статье Петера Девина - Tagengo: A Multilingual Chat Dataset

Я очень рад, что мне удалось наблюдать реализацию этой идеи на практике. Мой датасет, веса модели, а также файлы в формате GGUF опубликованы в моем Huggingface аккаунте.

33
реклама
разместить
Начать дискуссию
Почему рано хоронить OpenAI и превозносить DeepSeek?

В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело

Лаг между "эффектом доступа" и "эффектом производительности". <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
1111
DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?
DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?

Я не верю тому, что они говорят, и вы тоже не должны верить. А если быть последовательным, то и вы не должны доверять моим словам. Но я докажу свои слова фактами и доказательствами.

2626
Сотрудники теряют мотивацию: как все исправить и не допустить ошибок, которые ухудшат ситуацию

Потеря мотивации одного человека может привести не только к снижению его продуктивности, но и к ухудшению общей рабочей атмосферы в компании. Ведь негативные настроения в коллективе могут быстро распространяться. Поэтому в этом вопросе стоит идти от частного к общему: важна мотивация каждого сотрудника и его личное отношение к компании.

11
Как с помощью GPT я читаю и запоминаю посты из сотни Telegram каналов и не схожу с ума
  • В Телеграме море полезной информации, но как найти время, чтобы читать и запоминать ее?
  • Как заставить нейросети помогать с чтением не только книг, но и тысяч постов с полезным контентом?
  • Расскажу, как использую GPT, чтобы читать и учиться быстрее, чем когда-либо. Покажу примеры работы со своей базой знаний из постов Telegram-каналов, книг и курсов.
Как с помощью GPT я читаю и запоминаю посты из сотни Telegram каналов и не схожу с ума
4747
1616
22
11
Сможет ли DeepSeek R-1 ответить на эти 5 сложных для ИИ вопросов?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных для ИИ вопросов?

Каждый раз, когда появляется новая языковая модель, у меня всегда возникает желание проверить ее с помощью нескольких обманчиво простых, но каверзных вопросов. Это моя личная привычка - своего рода стресс-тест, чтобы проверить, насколько хорошо эти модели справляются с логикой и рассуждениями.

1212
44
Метрики оценки LLM: полное руководство по оценке LLM
Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

Накрутка просмотров ютуб 2025: Топ 23 сервиса для быстрого роста канала

Чтобы ваш канал на YouTube рос быстрее, накрутка просмотров может стать удачным решением. Увеличение числа просмотров влияет на алгоритмы платформы, помогая продвижению видео в рекомендуемые и поисковые результаты. Это повышает шансы, что ваше видео заметят и посмотрят пользователи.

От ресторанов до банков: какие компании доверяют ИИ важные задачи
От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

11
Люди больше не нужны? Профессии, которые уже заменил ИИ
Люди больше не нужны? Профессии, которые уже заменил ИИ

2023 - 2024 годы стали переломными для искусственного интеллекта. Развитие технологий ускорилось, а внедрение нейросетей затронуло буквально все сферы жизни. Мощные мультимодальные модели, такие как GPT-4 от OpenAI и Gemini Ultra от Google, теперь способны анализировать не только текст, но и изображения, аудио, код и даже сложные бизнес-данные.

11
реклама
разместить
Оценка больших языковых моделей в 2025 году: пять методов
Оценка больших языковых моделей в 2025 году: пять методов

Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.

11
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
Фото <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2F%40neon845b%3Futm_content%3DcreditCopyText%26amp%3Butm_medium%3Dreferral%26amp%3Butm_source%3Dunsplash&postId=1792656" rel="nofollow noreferrer noopener" target="_blank">Яни Каасинен</a> на <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2Fphotos%2Fbrown-chess-pieces-on-brown-wooden-chess-board-7VGzV09YnvA%3Futm_content%3DcreditCopyText%26amp%3Butm_medium%3Dreferral%26amp%3Butm_source%3Dunsplash&postId=1792656" rel="nofollow noreferrer noopener" target="_blank">Unsplash</a>.

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли в…

OpenAI рассказали, как лучше использовать модели ChatGPT

Расскажу основное из руководства «Best Practices for Reasoning». В каких случаях лучше использовать новую рассуждающую модель (o1 and o3-mini), а также практические советы по созданию эффективных запросов (промптов) и стратегии для получения точных и полезных ответов.

OpenAI рассказали, как лучше использовать модели ChatGPT
22