Меня зовут Руслан, я инженер-программист, автор YouTube канала Ruslan Dev, специализируюсь на облачных вычислениях и машинном обучении. В этом кейсе я расскажу о своем опыте разработки больших языковых моделей (LLM). Так как один из самых передовых графических процессоров Н100 стоит как крыло самолета, я арендовал ее через облачный сервис immers.cl…
В последние месяцы выходит большое количество нейросетей, но только небольшое количество из них заслуживает внимания. Сегодня поговорим о нейросети *Meta Lama 3.1 (признана в РФ экстремистской организацией и запрещена).
В прошлом месяце вышли две интересных модели - Llama 3.1, улучшенная версия Llama 3, и Mistral Large 2.
Как пользоваться LM Studio для работы с LLM Llama, falcon, mistral. Создал видео гайд LM Studio, где расскажу как устанавливать текстовые модели локально на свой компьютер.
Меня зовут Ruslan Dev и в этой статье я расскажу, как я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench. Также я рассмотрю новую конфигурацию для обучения на двух графических процессорах параллельно с помощью accelerate и deepspeed.
Несколько часов назад компания Meta выпустила новую и самую мощную версию своей открытой модели большого языка (LLM) Llama 3. В релиз вошли две версии модели: Llama 3 8B, содержащая 8 миллиардов параметров, и Llama 3 70B, содержащая 70 миллиардов параметров. Обе версии поставляются в базовом варианте и варианте с настройкой по инструкциям.