Fine-tuning больших языковых моделей в 2024 году

Fine-tuning больших языковых моделей в 2024 году

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сил…

Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend

Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend

В предыдущей статье мы показали, как можно ускорить процесс разметки предварительным аннотированием данных при помощи GPT-4. Эта методика позволяет нам загружать готовый к проверке предварительно размеченный датасет, а не выполнять монотонный процесс, начиная с нуля. В этой статье мы продолжим развивать эту тему, оказав, как можно объединить GPT-4…

Заблуждения о семантической сегментации

Заблуждения о семантической сегментации

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Разметка данных: неочевидные затраты на голосовые технологии

В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью…

Разметка данных: неочевидные затраты на голосовые технологии

Почему важна разметка данных: в основе ChatGPT лежит труд людей

Почему важна разметка данных: в основе ChatGPT лежит труд людей

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемо…

Неструктурированные данные: примеры, инструменты, методики и рекомендации

Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Разметка данных в 2023 году: текущие тренды и требования будущего

Разметка данных в 2023 году: текущие тренды и требования будущего

12 лучших инструментов аннотирования изображений на 2023 год

12 лучших инструментов аннотирования изображений на 2023 год

9 лучших инструментов аннотирования изображений для Computer Vision

9 лучших инструментов аннотирования изображений для Computer Vision

Руководство по аутсорсингу разметки данных для машинного обучения

Руководство по аутсорсингу разметки данных для машинного обучения

Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI

Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI

Разметка данных при помощи GPT-4

Разметка данных при помощи GPT-4

Как дообучать LLM с помощью Supervised Fine-Tuning

Как дообучать LLM с помощью Supervised Fine-Tuning
11

8 инструментов для аннотирования изображений в 2023 году

8 инструментов для аннотирования изображений в 2023 году

Как аннотировать документы для обучения ИИ распознавания текста

Как аннотировать документы для обучения ИИ распознавания текста

Лучшие ИИ-инструменты для аннотирования видео в 2023 году

Лучшие ИИ-инструменты для аннотирования видео в 2023 году

Шесть шагов для создания более качественных моделей Computer Vision

Шесть шагов для создания более качественных моделей Computer Vision

Как опенсорсные инструменты замедляют разработку моделей для анализа медицинских снимков

Как опенсорсные инструменты замедляют разработку моделей для анализа медицинских снимков
11

Самое важное с конференции NeurIPS 2021

Самое важное с конференции NeurIPS 2021
33

Хотите усовершенствовать цикл обработки данных? Попробуйте задействовать людей

Хотите усовершенствовать цикл обработки данных? Попробуйте задействовать людей
11

Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision

Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision
55

Как мы масштабируем машинное обучение

Как мы масштабируем машинное обучение
11

Хочу в IT: почему этот месседж не работает в сфере разметки данных

Хочу в IT: почему этот месседж не работает в сфере разметки данных
99

20+ популярных опенсорсных датасетов для Computer Vision

20+ популярных опенсорсных датасетов для Computer Vision
22

Датацентрический и моделецентрический подходы в машинном обучении

Датацентрический и моделецентрический подходы в машинном обучении
11

10 лучших опенсорсных инструментов аннотирования для компьютерного зрения

10 лучших опенсорсных инструментов аннотирования для компьютерного зрения

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Архитектура платформы машинного обучения в продакшене

Архитектура платформы машинного обучения в продакшене

Руководство по Human Pose Estimation

Руководство по Human Pose Estimation
77

Как за неделю разметить миллион примеров данных

Как за неделю разметить миллион примеров данных
22

Как избавиться от проблем при разметке данных для обучения ML моделей?

Как избавиться от проблем при разметке данных для обучения ML моделей?

Как создать эффективный план разметки данных?

Как создать эффективный план разметки данных?

Зачем вам нужно использовать активное обучение при обучении нейронных сетей

Зачем вам нужно использовать активное обучение при обучении нейронных сетей

Четыре урока о создании инструментов для машинного обучения

Четыре урока о создании инструментов для машинного обучения
11

Разметка данных для машинного обучения: обзор рынка, методики и компании

Большая доля data science и машинного обучения зависит от чистых и корректных источников данных, поэтому неудивительно, что скорость роста рынка разметки данных продолжает увеличиваться. В этой статье мы расскажем о многих крупных игроках отрасли, а также об используемых ими методиках, чтобы вы могли иметь возможность выбора наилучшего партнёра в с…

Почему я изменил своё мнение о слабой разметке для ML

Почему я изменил своё мнение о слабой разметке для ML

Как Hasty использует автоматизацию и быструю обратную связь для обучения моделей ИИ

<i>CEO Hasty Тристан Руиллар (в центре), сооснователи компании Константин Проскудин (слева) и Александр Веннман (справа)</i>
11

Руководство по типам аннотирования изображений

Руководство по типам аннотирования изображений

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Лучшие платформы аннотирования изображений для компьютерного зрения на 2019 год

Почему при разработке ИИ главное — это данные

Системы машинного обучения рождаются от союза кода и данных. Код сообщает, как машина должна учиться, а данные обучения включают в себя то, чему нужно учиться. Научные круги в основном занимаются способами улучшения алгоритмов обучения. Однако когда дело доходит до создания практических систем ИИ, набор данных, на котором выполняется обучение, по к…

Почему при разработке ИИ главное — это данные
33

Аннотирование текста для машинного обучения

Аннотирование текста для машинного обучения
33

Семантическая сегментация 4D сцен с лидаров и прогресс в разработке беспилотных автомобилей

Семантическая сегментация 4D сцен с лидаров и прогресс в разработке беспилотных автомобилей
33