27.11.2018

Big Data. Каких результатов можно достичь с помощью аналитики больших данных

А. Г. Племяшова, CMA, директор по корпоративной стратегии и развитию, АО «Белтел»

Статья подготовлена для журнала «Корпоративная финансовая отчетность. Международные стандарты», №1/2019

Год назад на 5-й практической конференции «МСФО и управленческий учет» обсуждались вопросы о будущем специалистов в финансовом и управленческом учете. Утверждения некоторых экспертов о том, что автоматизация процессов и внедрение систем искусственного интеллекта вытеснят профессию бухгалтера или юриста, конечно, несколько преждевременны, но обучаться новым навыкам, быть в тренде технологических изменений и возможностей полезно для профессионала в любой области.

В октябре 2018 года консалтинговая компания Protiviti опубликовала отчет об исследовании 2018 Finance Trends Survey. В опросе участвовало около 400 топ-менеджеров по корпоративным финансам. Результаты исследования показали, что для финансовых лидеров приоритетом являются данные, их безопасность, качество и применение, в том числе с использованием технологий продвинутой аналитики для улучшения бизнес-процессов.

По мнению CFO и вице-президентов по финансам (рис. 1), топ-3 в работе с данными сегодня — это:

безопасное хранение и конфиденциальность данных в финансовых приложениях — 75 %;
финансовое планирование и анализ — 70 %;
продвинутый анализ данных — 62 %.

Рис. 1. Топ-10 финансовых приоритетов

Эволюция аналитики данных. Немного теории и цифр

До недавнего времени аналитические отчеты во многих прикладных продуктах для аналитиков были достаточно успешно автоматизированы ведущими мировыми поставщиками IT-решений или командами российских разработчиков. При анализе данных предполагалось использование внутренних данных организаций.

Но буквально за последние пять лет стал доступен инструментарий продвинутой аналитики с использованием больших данных, что позволяет предоставлять бизнесу важную информацию и увеличивать эффективность производственного процесса. Такую аналитику еще называют предсказательной, или предиктивной, аналитикой (Predictive Analytics) и предписывающей аналитикой (Prescriptive Analytics). Продвинутая аналитика основана на построении математических моделей методами машинного обучения (Machine Learning, ML).

Идея интеллектуальных систем, построенных на основе технологии машинного обучения, не нова, но темпы развития этой технологии значительно выросли.

Этому ускорению способствовали три фактора:

развитие алгоритмов машинного обучения в последние годы, особенно методов глубокого обучения (Deep Learning) и нейронных сетей (Neural Network);
доступность вычислительных мощностей для быстрого обучения более сложных моделей;
наличие массивов данных, которые могут использоваться для обучения моделей.

Известное аналитическое агентство в области информационных технологий Gartner приводит график, который демонстрирует эволюцию аналитических возможностей по мере развития технологий и автоматизации производственных процессов (рис. 2).

Исследования, которые проводили консалтинговые компании в 2016–2017 годах, подтверждают, что расширенная аналитика и использование больших данных уже оказали глубокое влияние на бизнес.

Рис. 2. Стадии зрелости аналитики данных

Каких результатов можно достичь, внедряя эти технологии? В каждой компании они свои и зависят от решений, объемов операций и их сложности.

Например, по данным компаний BCG и McKinsey, это:

сокращение затрат на инвентаризацию и логистику на 10–20 %;
ускорение операций на 10 %;
увеличение производительности по сравнению с конкурентами на 5 %;
увеличение прибыли на 6 %.

Однако успех решения и убедительный результат гарантированы только в том случае, если в основе лежат качественные данные надлежащей глубины хранения, четко определенные целевые показатели, которые учитывают ограничения решения.

Примеры прикладных задач

В мировой практике накопилось уже достаточно историй успеха предприятий, которые внедрили решения в области искусственного интеллекта и продолжают их развивать, двигаясь в сторону полной цифровизации производства. Сегодня в России также есть ряд проектов в этой области. Пионерами являются банковская сфера, страховой бизнес, активно осваивают новые технологии ритейл и FMCG-отрасль, промышленные предприятия, также есть примеры применения новых инструментов в отрасли сельского хозяйства и логистике. Реализованными кейсами делились в СМИ такие компании, как Сбербанк, «Газпром нефть», «Северсталь», НЛМК, МТС, Х5 Retail Group, «Аэрофлот», «Русагро».

Примерами решений в области продвинутой аналитики и искусственного интеллекта можно назвать:

различные задачи прогнозирования (спроса, закупок, сырья, смены персонала, оттока клиентов и пр.);
рекомендательные сервисы;
решения по оптимизации (цены, ассортимента, условий сделки, технологического процесса и пр.);
предиктивное обслуживание оборудования как частная задача прогнозирования;
решения с применением компьютерного зрения (распознавание товара, идентификация людей, присутствие/отсутствие персонала в контрольных зонах, наличие очередей и пр.);
решения с применением методов обработки естественного языка (Natural Language Processing, NLP) (интеллектуальные чатботы, информационный поиск, машинный перевод и пр.).

Развитие облачных вычислений и сервисов делает доступным подобные решения не только для корпораций, но и для компаний среднего и малого бизнеса за счет уменьшения цены входа в проект: необходимость инвестиций в дорогостоящее серверное оборудование отсутствует.

Как работает машинное обучение

Основное отличие от традиционного анализа — это не программирование алгоритма, а обучение модели решать обозначенную задачу на предоставленных данных. Такие алгоритмы называются алгоритмами машинного обучения, и они начинают вытеснять существовавшие до сих пор подходы к аналитике.

Сегодня в бизнесе чаще всего применяются два способа машинного обучения: обучение с учителем (Supervised Learning) и обучение без учителя (Unsupervised Learning).

Примерами задач, которые решаются с помощью этих двух подходов, могут быть:

обучение с учителем:
- классификация (детектирование спама, вероятность оттока клиентов, ухода сотрудника, вероятность невыплаты кредита);
- регрессия (задачи прогнозирования, предсказание исхода технологического процесса);
- фильтрация выбросов (обнаружение мошенничества, отклонения в технологическом процессе);
обучение без учителя:
- кластеризация (таргетированная реклама, рекомендательные сервисы, исследование рынка).

Основное требование к задачам обучения с учителем — это наличие определенного набора исторических данных с требуемой глубиной хранения в зависимости от реализуемого решения для обучения модели.

Методология построения решения в области анализа данных (начало работы)

Самая распространенная методология, которая используется при построении решений в области анализа данных, существует еще с 1999 года и называется CRISP-DM, то есть Cross Industry Standard Process for Data Mining — межотраслевой стандартный процесс для исследования данных. Основными этапами методологии являются (рис. 3):

Понимание бизнес-задачи (Business Understanding)
Понимание данных (Data Understanding)
Подготовка данных (Data Preparation)
Моделирование (Modeling)
Оценка точности модели (Evaluation)
Внедрение в бизнес-процесс (Deployment)

Рис. 3. Этапы построения решения в области анализа данных

Пунктами 4 и 5 должны заниматься математики — аналитики данных, или, как их сейчас принято называть, Data Scientist. В реализации пунктов 1–3 и 6 активное участие могут принимать финансовые специалисты.

Для наглядности предположим, что задача состоит в реализации решения прогнозирования спроса (продаж) с определенной целью. В этом случае сразу придется обратиться к пункту 1 для выяснения желаемой цели в данном конкретном случае прогнозирования спроса методами машинного обучения.

Не надо быть специалистом в бюджетировании, чтобы понимать: любой бюджет строится в зависимости от прогноза продаж. Построив такой прогноз, можно опуститься на любой уровень бюджетирования — к бюджету производства с прогнозом загрузки рабочих смен, потребления сырья и закупок, с маркетинговыми планами и прочими производными бюджетами. Чем больше операций, факторов влияния на спрос, тем сложнее построить прогноз продаж. Для любого коммерческого подразделения планирование продаж в конце года — трудоемкий процесс. При этом эффективная система бюджетирования должна строить гибкие бюджеты с постоянным перерасчетом значений в зависимости от текущей ситуации.

Большинство систем для финансового учета обладает встроенными модулями планирования и прогнозирования. Правда, в начале работы эти модули необходимо настроить исходя из существующих бизнес-процессов, регламентов и процедур. Настраиваемые алгоритмы уже на первом этапе могут выглядеть устрашающе, а при ответственном подходе сотрудников отдела автоматизации они превращаются в многотомные инструкции со множеством ссылок на другие алгоритмы, которые косвенно участвуют в планировании. В этой ситуации наибольшее сочувствие вызывают программисты, которые должны разработать новые функции, не нарушив при этом работу существующих. Все они не один раз читали и перечитывали инструкции, но ведь могли и не обратить внимание, например, на сноску о регламенте работы, который может оказать разрушительный эффект на какую-то функцию, и операции компании могут быть парализованы на несколько часов, потому что ошибка в алгоритме по какой-то причине не была замечена на тестовой базе.

В такой ситуации изменение алгоритмов расчета, введение новых правил может вызывать вполне оправданную тревогу руководителей финансовых подразделений, которые отвечают за планирование и прогнозирование. Риски высоки, а эффект от «подкрученного винта» в алгоритме не всегда существенно улучшает качество прогнозирования.

Предположим, что в компании решено попробовать технологии предиктивной аналитики, принцип работы которых, как известно, отличается от традиционной. Предположим также, что у компании уже есть модуль прогнозирования спроса. Он работает с удовлетворительной точностью, но его обслуживание трудоемко, а функции ограничены (например, в этом модуле отсутствует система формирования автозаказа на сырье или материалы). В этом случае бизнес-задача может звучать следующим образом: улучшение точности прогнозирования на Х % с целью снижения простоя цеха (отдела, производства) на Y %. Понятно, что для решения этой задачи должен существовать алгоритм расчета простоя, чтобы после внедрения решения было понятно, как, что и с чем сравнивать.

Или, например, для розничной сети может быть необходимо построить решение по прогнозированию оптимального заказа для каждого поставщика с целью снижения списаний просроченной продукции на Х % и увеличения продаж на Y %. В этом случае следует учитывать, что поставщики по ряду причин не всегда выполняют заказы по предложенной им спецификации и в указанные сроки. Как посчитать эффективность в таких условиях? Это справедливый вопрос, и ответ, что делать в таком случае, мы дадим в следующих публикациях.

А сейчас рассмотрим, как определить адекватный процент, на который требуется повысить эффективность бизнеса.

Пример внедрения решения в области анализа данных

Самый очевидный ответ, позволяющий составить первое грубое представление, — это сделать такую оценку основываясь на предыдущем опыте и ожиданиях отрасли. Далее стоит оценить, во что обойдется реализация решения с применением предиктивной аналитики. В число затрат стоит включить расходы на наем специалистов или аутсорсинг, стоимость внедрения и интеграции с существующими системами, приобретения дополнительных вычислительных мощностей или облачного решения, последующей технической поддержки.

Подсчитав бюджет решения, от абсолютных чисел можно перейти к относительным и вывести желаемый процент.

Звучит достаточно просто, но возникает вопрос, кто будет принимать все необходимые решения: использовать для анализа облако или собственные сервера, где брать этого загадочного Data Scientist и как оценить его квалификацию, или, возможно, проще поискать на рынке уже готовый продукт?

Варианты подхода к расчету бюджета зависят от ресурсов компании:

В ней уже есть отдел инноваций, или цифровой трансформации, или аналитический, или любой другой, который решает подобные задачи, и все, что нужно, это отправить в него техническое задание на разработку решения. В ответ вы получите сроки выполнения и расчет трудоемкости, рекомендации по технической реализации решения и расчет затрат на внедрение и обслуживание.
В компании есть инициативный и интересующийся развитием и внедрением новых технологий IT-директор. Это прекрасная возможность объединить компетенции, создать рабочую группу и собрать информацию для расчета бюджета решения. Времени потребуется больше, чем в первом случае, но это позволит накопить полезный опыт.
Компания не имеет возможности использовать временной ресурс сотрудников. В плане на следующий год стоит создание отдельного подразделения по цифровой трансформации. На текущий момент руководство согласно на полный или частичный аутсорсинг консалтинга по внедрению инновационных решений.

Итак, применив один из перечисленных вариантов, компания составила бюджет, разобралась с целевыми показателями и даже представила их в количественном виде. Теперь необходимо понять, увеличит ли внедряемое решение эффективность на желаемый процент.

Снова обращаемся к опыту. Можно действовать так же, как при принятии решения о целесообразности внедрения традиционных продуктов автоматизации. Возможны следующие варианты:

интуитивно, основываясь на профессиональном опыте, при этом руководство доверяет интуиции специалиста;
разработчик решения проводит исследования, согласно которым эффективность увеличивается на удовлетворительную величину. Компания доверяет разработчику, хотя в договоре с ним будут оговорены штрафные санкции, если рост эффективности не достигнет целевых показателей;
компания использует бесплатную демоверсию готового решения. В этом случае главное — найти ответственного за тестирование и не забыть оценить эффект по окончании бесплатного периода.

Этот список можно продолжать, добавляя в него рациональные или, наоборот, фантазийные критерии принятия решений.

Основные сложности инновационных проектов

Если компания хочет меняться и внедрять новые технологии, она должна понимать, что на рынке пока еще немного реализованных кейсов, статистика по показателям эффективности не набрана, а те показатели, что анонсируют разработчики решений, могут быть неактуальными для ее отрасли или ее особенностей бизнеса, к тому же методология расчета этих показателей также не всегда понятна. Получается, что блестяще сформулированная бизнес-задача с четкими количественными критериями превращается в обычный лозунг? В инновационном менеджменте принято называть это гипотезой.

Выдвинута гипотеза, что задача прогнозирования спроса с целью, например, формирования системы автозаказа для поставщиков снизит списания на 20 % и увеличит продажи на 6 %. Но эта гипотеза может не подтвердиться, и проценты окажутся меньше.

Возможен еще один пугающий исход: задача может оказаться нерешаемой в текущий момент времени. Помните, что при построении моделей в предиктивной аналитике качество, успех решения и убедительный результат гарантированы только в том случае, если в основе лежат качественные данные надлежащей глубины хранения. У компании может просто не хватать критичных данных для решения поставленной задачи. Она могла не собирать их ранее или хранить в течение какого-то короткого срока, скажем, только три месяца при том, что для разработки решения необходимы данные как минимум за два года, — такое возможно, если речь идет о задаче прогнозирования спроса на товары с учетом влияния сезонности.

Как же минимизировать риски неуспеха проекта?

Для проверки гипотезы запускаются пилотные проекты, то есть решения, ограниченные по сроку и функциям. Главная задача таких проектов — подтвердить или опровергнуть гипотезу, выявить ограничения и дополнительные требования для улучшения качества прогноза. Как правило, такие проекты значительно дешевле в реализации и, если данные хорошего качества, они могут длиться не более месяца, а затем, в случае успеха пилотирования, результат проекта масштабируется на весь бизнес.

Итогом пилотного проекта является принятие управленческого решения:

о внедрении решения в промышленную эксплуатацию, если пилот успешен;
о продолжении пилота на определенный срок, если времени оказалось недостаточно, но промежуточные итоги удовлетворительные;
об отказе от внедрения, если пилот завершился неудачно. За этим следует всесторонний анализ причин неудачи с выводами о дальнейшей судьбе инициативы: отложить, забыть, рассмотреть другие варианты решения.

Итак, сформулирована бизнес-задача, критерии качества и принято решение вступить в пилотный проект. Следующий этап — это работа с данными. Как правило, интерпретация данных и их подготовка занимают 80 % времени работы над задачей предиктивной аналитики. От качества данных зависят сроки, стоимость реализации решения, а также сама его возможность.

Для финансовых специалистов работа с данными и поддержание их в порядке — привычная задача. Но разные сценарии применения продвинутой аналитики могут требовать различной разметки данных по аналитическим признакам, глубины хранения, накопления отклонений по некоторым показателям и прочего. В следующих публикациях будут раскрыты спецификации данных, которые требуются для решения тех или иных задач, приемы работы с данными и часто совершаемые ошибки, а также инструменты первичного анализа и визуализации.

Журнал «Корпоративная финансовая отчетность. Международные стандарты», No1/2019. Источник

Вернуться к списку статей

Подписаться на рассылку

Оставьте заявку и получите бюджет и план внедрения наших решений в ваш бизнес