Пример: Издательство Оксфордского университета столкнулось с проблемой больших данных для обработки огромного объема лексических статей с целью эффективного создания корпуса английского языка для научных исследований лексики и грамматики. Как технический партнер университета с 2015 года, наша команда объединила усилия с OUP и командой MS Azure для разработки модульной системы сбора, очистки, фильтрации и обработки данных на базе Cosmos DB и инструментария NLP. Эта облачная система обладает неограниченной масштабируемостью и эластичностью, способной обрабатывать все новостные статьи на английском языке, ежедневно публикуемые во всем интернете, всего за три часа. Система выдерживает 10-кратную нагрузку. Теперь OUP может обрабатывать данные в пять раз эффективнее, чем раньше, и способна неограниченно масштабироваться.
Проведите инвентаризацию, чтобы понять, из каких источников поступают данные и имеет ли смысл интегрировать их для совместного анализа.
С этого вообще стоит начинать по умолчанию, нет?
В идеальном мире — конечно)
Просто по факту данные раскиданы по разным таблицам (а то и без таблиц) и хрен их найдешь в итоге))
Это может шокировать, но 80-90% данных являются неструктурированными, оценивает cio.com. Если они не хранятся в таблице базы данных (электронные письма, отзывы клиентов, видео и так далее), то они, скорее всего, неструктурированные или полуструктурированные.
У меня на работе некоторые компьютером на уровне калькулятора пользуются, говорить о структуризации не приходится. А жаль(
По данным Dell, 43% руководителей считают, что их инфраструктура не сможет в будущем справиться с растущими требованиями к данным.
у нас, боюсь, тоже такое может произойти, но чуть раньше...