Когда я занимался построением конвейеров данных, я сталкивался с этим снова и снова. Моим решением было дополнить данные полями, в которые я мог вставлять метаданные. Например, текстовое объяснение, имя файла скрипта и номер строки, другие переменные – всё, что мне понадобится для последующей отладки возможной проблемы. Записи вроде: "Я пометил этот товар как отсутствующий на складе, потому что два источника данных сказали, что его нет в наличии, хотя третий источник данных говорит, что у нас есть 1000 штук" – полезная вещь при дальнейшей работе с данными.
Кто-то использует данные формата JSON, хранящиеся в строковых (текстовых) полях
Серьезно, кто-то еще так делает?
а что в этом такого, это довольно распространенная практика
В некоторых видах бизнеса (например, в розничной торговле) объемы данных в праздничные и предпраздничные дни могут отличаться от обычных
про это бы поподробнее
Главное не подпускать к BigQuerry обезьян некоторых. У нас как-то один умник запускал запросы типа 'SELECT * FROM table LIMIT 100' с обращением к главной таблице с сырыми событиями. Счет пришел раза в 3 заложенного.
Хотелось бы отдельную статью про происхождение данных, типо что откуда как