😳 Чем питается ИИ? Датасеты — фактор успеха любой нейросети

😳 Чем питается ИИ? Датасеты — фактор успеха любой нейросети

Фразы, например: нейросеть обучили на миллионах текстов, модель проанализировала данные ... А что за данные-то? ⤵

Датасет — это ... ?

К примеру, на ПК есть папка с 10 000 фотографий кирпичных зданий. Это сырые данные — хаотичный набор файлов. Для нейросети это бесполезный мусор

Чтобы это изменить, нужно описать каждый дом, например:

Сортировка по типу объекта

— Многоквартирный дом

— Жилой дом

— Гараж

— Коммерческий объект

Сортировка по типу кирпича

— Красный

— Белый

— Желтый

Таких сортировок может быть десятки, сотни — в зависимости от того, какая нейросеть нужна

Упорядоченный, размеченный и структурированный массив — это и есть датасет

Можно его сравнить с учебником для нейросети. На каждый вопрос есть ответ в виде фото, текста, видео, аудио и прочих данных — формат может быть разный

А что важно еще?

— Плохие вводные данные = плохая нейросеть, поэтому идет борьба за максимально качественные датасеты

— Датасет — это всё, что нейросеть видела в своей жизни. Если ей показать только кирпичные дома, то она не будет верить, что есть еще и деревянные

— Реальность ... Важно, чтобы датасет был обучен не только на идеальных фотках из Гугла и Яндекса, но и на смазанных фото из реальной жизни, чтобы приблизиться к реальным условиям

Где искать датасеты?

💡ИТОГО

Качество, разнообразие и чистота датасета напрямую определяют интеллект нейросети. Это математика, основанная на данных

ИИ не забирает работу — он забирает шансы у тех, кто не хочет учиться.

На канале — короткие, понятные разборы и гайды, чтобы быть на шаг впереди⬇

Начать дискуссию