miteigi nemoto

+364

с 2018

Делюсь личным опытом эксплуатации GPU, внедрения и использования нейронных сетей.

68 подписчиков

30 подписок

miteigi nemotoв посте

Длинный контекст LLM в RAG-системах и не только (подробный обзор)17.04.2025

Как обычно зависит от ТЗ и сроков ) Какие цели и метрики, на какие собственно типы вопросов нужны ответы и что за тематика. Большое количество это сколько? 10 000? 100 000? Какие модели можно использовать, только локальные или платные типа OpenAI. Пишите в ТГ пообщаемся.

Ответить

miteigi nemotoв посте

Понижение мощности видеокарты Nvidia RTX 3090 в Linux для борьбы с перегревом 17.04.2025

Каждая GPU имеет индивидуальные линии отсечения, где оптимальное сочетании мощности и производительности. Самый простой способ провести несколько измерений. Уменьшить мощность на 10%, запустить бенчмарк. И так несколько раз. Потом увидеть на графике где приемлема граница.

Ответить

miteigi nemotoв посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 15.04.2025

Современные движки инференса в том числе Ollama хорошо справляются с разным зоопарком GPU, какого сборища только нету в системах, все смешалось "люди Nvidia, кони Amd/Intel" ) Поэтому указанная конфигурация очень даже хороша и жизнерадостна. Возможно только при трейне, используя стандартные примеры кода, могут быть некоторые неудобства с тяжелыми LLM, но решаемые доработкой.
Нужно также учитывать, что инференс/трейн если задействовать все GPU будет замедляться и работать со скоростью младшей модели - 3090.

Ответить

miteigi nemotoв посте

Как Яндекс выдал промокод, но решил, что не будет по нему отгружать товар 06.12.2024

Мы ждем акт сверки после 10го числа. Пока все выглядит так, что вы дважды удержали за услуги сумму по не понятной логике. В то время как за 1 месяц уже должно быть все начислено и возвращено. Если окажется, что Яндекс нам ничего не должен - это будет позорная история...

Ответить

miteigi nemotoв посте

Как Яндекс выдал промокод, но решил, что не будет по нему отгружать товар 04.12.2024

Обращение №869018470906
Обращение №783565400544

Ответить

miteigi nemotoв посте

Как Яндекс выдал промокод, но решил, что не будет по нему отгружать товар 04.12.2024

А с нашим случаем разберитесь тоже, а то акция ваша, на которую мы не давали согласия, прошла за счет продавца.

Ответить

miteigi nemotoв посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 15.10.2024

1. Не рекомендую Tesla M10, очень слабая. К тому же там по 8Гб разделение на плате и в системе это будет 4 по 8 гб.
2. Tesla P40 24 Gb в принципе для инференса терпимая и дешевая тема часто в 2-3 раза слабее чем современные карты.
wizardlm-2 8x22B может иметь хорошую скорость потому что там только 8B при инференсе активируется, в этом особенность MOE архитектур.
3. Прирост может быть, но не для всех ГПУ это будет заметно, в основном это важно для моделей типа 3090, 4090, А100.
Вероятно с P40 никакого эффекта не будет, кроме случаев когда на процессор будут слои частично выгружаться, тогда да будет быстрее.

Ответить

miteigi nemotoв посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 15.10.2024

Если умеете готовить по охлаждению и есть на него материнка подходящая, то конечно норм вариант

Ответить

miteigi nemotoв посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 14.10.2024

Ресурсов таких не видел. Современные десктоп процы что интел что райзен имеют около 16-24 линий на проц. Вот надо попасть на 20+ хотя бы )
Попробуйте сначала с материнской платой определится по бюджету и чтобы на проц два слота было. Скорее всего они достаточно высокий ценник имеют, либо вообще нет в продаже.

Ответить

miteigi nemotoв посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 14.10.2024

Если в системе не планируется больше, чем двух ГПУ, а материнская плата дает сразу два PCIE слота напрямую в процессор 5700x, то этот вариант будет быстрее работать даже по х8. Если же 1 слот идет в процессор, второй через чипсет - то могут возникать подводные камни одновременной работы двух и более ГПУ. Я наблюдал какие-то коллизии нестабильности на мамке с i9, где только 1 PCIE слот в процессор идет, хотя проц поддерживает 2 по х8.

Если планируется использование 3-4 гпу в будущем, то лучше взять Ryzen threadripper 1950x или что-то побыстрее на один поток.
Разница между 5700x и 1950x в инференсе LLM может быть не сильно заметной - быть может в 20-30%, в то время как разница между 1950x и 7980X - может достигать до 30-40%.

Ответить