13.12.2021

Проблема сбора данных в промышленных проектах

Сергей Кравченко, Старший аналитик данных, Beltel Datanomics

Анализ данных и элементы искусственного интеллекта активно применяются в различных сферах деятельности, в том числе в промышленности. Первый шаг к внедрению таких систем — это сбор данных. Без данных невозможно построить и запустить модель в промышленную эксплуатацию. В статье обратим внимание читателей на часто возникающее узкое место при сборе данных, чтобы имелось более четкое представление, достаточно ли данных для обучения модели

Принцип построения ML-моделей широко известен. Существуют входные данные X, зависимая от входных данных переменная Y. По этим данным подбирается алгоритм F, который обучается делать сопоставление X → Y.

Одними важнейших характеристик данных являются объем выборки N и число предикторов M. Предположим, целью проекта является построение модели оценки прочности изготовленной детали. Тогда Y – прочность, X – множество параметров технологического процесса изготовления (температура, давление, время этапов изготовления), эти параметры называют также предикторами, N – число пар (X, Y).

Проблема часто состоит в том, что параметры X записываются в базу данных системой АСУ ТП, однако лабораторные измерения проводятся вручную путем регламентированного забора материала. В одном из наших проектов период автоматической записи данных параметров X составлял 3 секунды, в то время как лабораторные измерения величины Y проводились один раз в два часа. Узким местом в сборе данных было число измерений величины Y, у которой частота записи в базу была в 2400 раз меньше, чем у параметров X. Из-за недостатка лабораторных измерений оставшиеся 2399 записи X невозможно было сопоставить с величиной Y. Поэтому количество примеров N для обучения модели будет наименьшим значением числа измерений X и Y.

Рисунок 1. Соответствие записей телеметрии и лабораторных измерений. В обучение модели попадут только пары (X, Y)

Еще один пример описанной выше проблемы возник перед нами в пивном производстве. Данные телеметрии в течение года собирались непрерывно, объем наколенных данных за год по параметрам X составил 10 млн. строк, количество параметров – 63. Однако за это время было произведено 600 варок, из них только у 1/3 части проводилось измерение величины Y – pH сусла. Итого около 200 измерений Y, что недостаточно для построения ML модели, выявляющей влияние параметров X.

Число примеров N является важным, особенно, когда количество предикторов M велико. Алгоритмы машинного обучения требуют большее число примеров N для обучения при большом количестве признаков M. Такая проблема известна в ML-индустрии и называется «проклятием размерности».

Универсальной рекомендации по количеству примеров для решения той или иной задачи, к сожалению, не существует. По нашему опыту, когда количество пар (X, Y) составляет от нескольких сотен до одной тысячи, то такой объем данных позволяют произвести только описательную аналитику и давать общие рекомендации по улучшению процесса производства. Собранный объем данных не гарантирует 100% результат. Ответ на вопрос: «Возможно ли решить задачу с помощью ML подхода?» — можно получить после реализации пилотного проекта (Proof of concept).

Дополнительно

Читайте в наших статьях:

Снижение рисков инновационных проектов или как помочь проекту взлететь (datanomics.ru)

Чек лист для запуска проектов AI на производстве (datanomics.ru)

Искусственный интеллект в промышленности на примере внедрения системы предиктивного обслуживания оборудования. 3 фактора успеха (datanomics.ru)

Вернуться к списку статей

Подписаться на рассылку

Оставьте заявку и получите бюджет и план внедрения наших решений в ваш бизнес