😳 Чем питается ИИ? Датасеты — фактор успеха любой нейросети
Фразы, например: нейросеть обучили на миллионах текстов, модель проанализировала данные ... А что за данные-то? ⤵
Датасет — это ... ?
К примеру, на ПК есть папка с 10 000 фотографий кирпичных зданий. Это сырые данные — хаотичный набор файлов. Для нейросети это бесполезный мусор
Чтобы это изменить, нужно описать каждый дом, например:
Сортировка по типу объекта
— Многоквартирный дом
— Жилой дом
— Гараж
— Коммерческий объект
Сортировка по типу кирпича
— Красный
— Белый
— Желтый
Таких сортировок может быть десятки, сотни — в зависимости от того, какая нейросеть нужна
Упорядоченный, размеченный и структурированный массив — это и есть датасет
Можно его сравнить с учебником для нейросети. На каждый вопрос есть ответ в виде фото, текста, видео, аудио и прочих данных — формат может быть разный
А что важно еще?
— Плохие вводные данные = плохая нейросеть, поэтому идет борьба за максимально качественные датасеты
— Датасет — это всё, что нейросеть видела в своей жизни. Если ей показать только кирпичные дома, то она не будет верить, что есть еще и деревянные
— Реальность ... Важно, чтобы датасет был обучен не только на идеальных фотках из Гугла и Яндекса, но и на смазанных фото из реальной жизни, чтобы приблизиться к реальным условиям
Где искать датасеты?
💡ИТОГО
Качество, разнообразие и чистота датасета напрямую определяют интеллект нейросети. Это математика, основанная на данных
ИИ не забирает работу — он забирает шансы у тех, кто не хочет учиться.
На канале — короткие, понятные разборы и гайды, чтобы быть на шаг впереди⬇