Какие данные скорее вред, чем польза?

Исследователи разбивают свойства Big Data на четыре, каждое из которых, играет определенную роль в анализе и подтверждает их бизнес-ценность.

Условно свойства Big data определялись четырьмя «V»:

1. VOLUME — масштаб
2. VARIETY — разнообразие
3. VELOCITY — скорость передачи
4. VERACITY — достоверность

В настоящее время упоминается еще «пятый V» больших данных, который играет весьма существенную роль. Это VALUE — стоимость.

Существует много источников данных и сегодня их больше, чем когда-либо.

По сведениям IDC, в 2025 году глобальные данные вырастут до 163 Зетабайт (триллион гигабайт). Это в 10 раз больше, чем 16,1 цетта-байт данных, сгенерированных только в 2016 году.

С появлением новых приложений и процессов каждый день мы будем только увеличивать в своей повседневной жизни число датчиков, систем и устройств для передачи Big Data.

Но не все так гладко, как кажется на первый момент. Не факт, что много данных — это только хорошо.

Рассмотрим случаи, когда имеющиеся данные — это скорее вред, чем польза.

Почему мы должны учитывать такое свойство, как «VALUE» и какие данные значительно влияют на ее определение?

1. В первую очередь, речь идет о грязных данных.

Грязные данные — это неверные, неточные, вводящие в заблуждения, дубликаты, занесенные с нарушением бизнес-процессов, а также с банальными нарушениями пунктуации или правописания.

Причиной возникновения такого вида ошибок является человеческий фактор, связанный с ежедневными рутинными операциями работников, специалистов по сбору данных.

Еще один немаловажный фактор, который влияет на появление грязных данных — критический срок для сбора, когда люди просто делают исправления в ошибках, которые очевидны, на поверхности, не вникая в причину или первоисточник их возникновения.

2. Скрытые или «темные данные»

Большинство компаний имеют темные данные или данные, которые они собирают, обрабатывают и хранят как часть повседневной деловой активности, но не используют для каких-либо значимых исследований и решений. В этих данных есть ценность, но этот потенциал скрыт от глаз.

В первую очередь, такая ситуация может возникнуть в результате несогласованности действий разных отделов компании, например, Data Scientists и IT-отделами.

Задача Data Scientist-ов уметь собирать информацию от разных конечных точек и генерировать ответы на возникающие в результате анализа вопросы.

3. Неструктурированные данные

Иногда данные доступны, но не готовы к использованию.
Их необходимо обогатить, в некотором смысле, сделать их совместимыми с системой, которая должна потребляют данные.

Для подготовки данных для алгоритмов машинного обучения, используется информация автономных систем и все они должны быть структурированы.

Например, тысячи часов видео должны быть разбиты, часто кадр за кадром, в массовом масштабе (подумайте, миллионы кадров!).

Только после этого неструктурированные данные преобразуются в структурированные и используется для создания и обучения моделей машинного обучения.

Сейчас самое время подумать над тем, какие данные имеете вы и как их можно использовать для достижения цели, минимизируя риски, связанные с повышением стоимости данных.