miteigi nemoto

+326
с 2018

Развиваю концепцию домашнего датацентра. Делюсь личным опытом эксплуатации железа, GPU, внедрения и использования ИИ.

48 подписчиков
31 подписка
Обновление #3 в бенче ContextTrap : FractalGPT, T-lite, Gemma2, Mistral-Nemo, Claude Haiku, GLM4, GPT-4o-mini, DeepSeek-Coder-V2, GPT-3.5, Jamba-instruct, Nemotron-4-340b-instruct

Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом. Всего протестировано 46 моделей в разных конфигурациях. Ниже будут некоторые комментарии к новым моделям в списке.

Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.
22
11
Откровение месяца: ансамбль из 8 отдельных моделей 7-9B в бенче ContextTrap достигают уровня Cloud 3 Opus
Результаты ContextTrap-4K v0.1 на 2024-07-03. % - это доля всех очков, полученная моделью. Желтым подсвечены новые модели.

За два месяца тестирования разных языковых моделей я заметил, что они ошибаются по-разному. Часто решают сложные задачи, но допускают ошибки в простых вопросах. Мне пришла идея: а что, если взять лучшее от каждой модели и подсчитать общий рейтинг ансамбля?

11
11
Сравнение производительности сервинга Llama 3 на vLLM, LMDeploy, MLC-LLM, TensorRT-LLM и TGI
11
Тестирование H100 vs A100 в трейне и инференсе Llama 3, погружение в FP8 и пробы движка TensorRT-LLM

Прошло два года с момента первого анонса NVIDIA H100 в 2022 году. Появилось множество открытых LLM моделей и всевозможных ML-библиотек, а сама видеокарта стала более доступной в России. В последние пару месяцев я активно экспериментирую с fine-tuning LLama 3 и возникла потребность в ускорении процесса обучения на больших датасетах. Все это натолкну…

NVIDIA H100
66
ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке
Результаты ContextTrap-4K v0.1 на 2024-05-31. % - это доля всех очков, полученная моделью.

В течение мая 2024 работал над созданием своего бенчмарка LLM и провел десятки тестирований моделей. Лидерборд на картинке выше. Подробное описание теста и инсайтов публикую в этой статьей.

1010
Законы масштабирования знаний в LLM LLaMA

В поисках ответов, сколько большая языковая модель типа LLaMA в зависимости от веса может сохранить уникальных знаний наткнулся на интересное исследование: Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws.

Законы масштабирования знаний в LLM LLaMA
Галлюцинации в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM)

В целом, этот тщательный обзор подробно рассматривает феномен галлюцинаций в MLLM, охватывая причины, оценку, подходы к уменьшению и перспективы на будущее, чтобы продвинуть исследования по улучшению надёжности и устойчивости MLLM.

Галлюцинации в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM)
11
Вопрос на засыпку мультимодалок: сколько людей на картинке

В процессе тестирования мультимодалки llava столкнулся с тем, что модель неправильно определила количество людей на картинке. Решил проверить, как обстоят дела у других MLLM моделей и слегка удивился их количеством.

Сборка Третьего искусственного спутника. [1958 г.] Российский государственный архив научно-технической документации К244-01-028. Кадр кинохроники. 1 человек на картинке
11
Что лучше для качества обучения bnb_4bit_use_double_quant=False или bnb_4bit_use_double_quant=True
bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.bfloat16 )
Вопрос на засыпку GPT: кто сыграл в роли Кэтрин Данлеви, в фильме "Восхождение Юпитер"

Еще в прошлом году случайно заметил, что GPTшки не знают ответ на этот вопрос или галлюцинируют. Спустя почти год решил проверить, какие модели исправились, включая новейшие Llama 3, WizardLM 2, Command R+ и Mixtral. Оказалось, что ситуация изменилась слабо.

Вопрос на засыпку GPT: кто сыграл в роли Кэтрин Данлеви, в фильме "Восхождение Юпитер"
11
Мое первое знакомство с ollama
Мое первое знакомство с ollama

Надоело использовать зоопарк из HF кода для тестирования моделек, как и мне? :-) Пришло время упростить этот процесс с помощью популярного инструмента ollama, полезного для разработчиков и исследователей. Здесь в статье будет упор про терминальное использование на linux, но есть множество разных вариантов GUI - изучайте.

33
Поиск ответа в документе на 26 тыс. слов через LLM Cloude / Mixtral / Command

Перефразирую классика - "Все умные LLM похожи друг на друга, каждая тупая LLM глупа по-своему." или "Все маленькие контексты схоже счастливы, каждый большой контекст несчастлив по-своему." 🙈

miteigi nemoto
22