Big Data в российской промышленности

Некоторое время назад помогал коллегам с подготовкой отраслевых комментариев для СМИ. Так как, в конечные материалы вошла только часть моих тезисов, решил сгруппировать и выложить их в заметку. Заголовки соответствуют вопросам журналистов.

Иллюстрация1

Как и где формируются потоки Big Data

Датифицировать и формировать большие данные для анализа можно практически из всего. Примеры:

Внутреннее состояние устройств и компонентов:
- внутренние режимы
- коды (в случае локомотива)
- сохраненную в памяти информацию и метаданные
Внешнее состояние, собираемое через датчики:
- температуру
- вибропараметры и данные с гироскопов
- фото и видео
- аудио
Местоположение
Информацию о действиях и взаимодействиях систем:
- системные логи
- время между действиями одной системы
- время ответа систем
- внутренние запросы
Производные данные:
- результаты виртуального тестирования
- агрегированные метрики

О любом сложном механизме, в принципе, можно собрать бесконечное количество данных. Помимо расширения набора метрик, можно увеличивать точность и частоту сбора.

Сегодня самой “генерирующей данные” отраслью является авиационная, но остальные тоже подтягиваются. Современные самолеты имеют на борту тысячи датчиков и генерируют свыше 10 ГБ (гигабайт) данных в секунду и сотни терабайт данных за полет.

Способность датифицировать предметную область зависит от:

Датчиков (внешние, внутренние), способных выдавать данные, которые можно сохранять, сопоставлять и обрабатывать
Каналов передачи данных, способных передать объем собираемой информации, алгоритмов и методик сжатия данных
Способности эти данные сохранить

Генерировать “данные ради данных” – контрпродуктивно, как минимум, в ближайшей перспективе, пока мы научились автоматически эффективно находить логические связи (Unsupervised Learning - это не то)

Чтобы успешно использовать Big Data нужны:

Возможность связать данные между собой (идентификаторы устройств/пользователей, временные метки и т.д.)
Хотя бы минимальная значимость данных для тех целевых параметров, которые пытаемся оптимизировать
Умение выработать управляющее воздействие

В традиционных (старых) управленческих системах является «нормой», когда 95+% собираемых данных в силу разных причин не используется для какого-либо принятия решения, и собирается, “чтобы было”.

Иллюстрация2

Для чего в промышленности используются большие данные

Большие данные в промышленности уже используются для ряда задач:

Своевременное выявление и устранение потерь в производственных процессах
Повышение стабильности технологических процессов
Оптимизация расхода энергии
Оптимизация сетевого планирования
Оптимизация ТОиР
Прогнозирование отказов оборудования (Предиктивная аналитика)

В качестве примера можно привести реализуемые проекты в железнодорожной отрасли РФ:

Цифровизация производства и создание цифровых двойников заводов транспортного машиностроения
Цифровизация сети сервисно-локомотивных депо
Предиктивная аналитика состояния узлов и агрегатов локомотивов
Автоведение локомотивов

Если не ограничиваться РФ, то можно почитать исследование ВЭФ/McKinsey с большим количеством кейсов.

Кто является получателем и распорядителем Big Data, вопросы ответственности и принятия решений

Даже сырые данные небезосновательно рассматриваются многими компаниями как актив, способный приносить ценность, даже если компании сейчас не могут ими воспользоваться (сделать предиктивные модели или real-time системы реагирования).

В авиации уже существует бизнес-модель, когда авиапроизводители, которые собирают технические данные с произведенных ими самолетов, могут выступать техническими экспертами и арбитрами в сделках на вторичном рынке.

Ответственность за применение - пока, по умолчанию, за конечными операторами систем.

Как можно оценить отношение российской промышленности к использованию больших данных, что препятствует распространению этой технологии, какова здесь политика государства

Судя по общему настроению на рынке, капитализировать тему больших данных хотят все. Пока, в основном, положительное движение в этом направлении - удел крупных промышленных групп и предприятий. Почти каждый крупный промышленный холдинг уже запустил или запускает свои программы цифровизации.

Возможности:

Очень большой потенциал роста эффективности предприятий в РФ
Много локальных игроков, которые готовы разрабатывать решения в области Big Data и AI

Сложности:

Нужна высокая культура производства и бизнеса(Цифровая культура)
Существующий парк оборудования в среденм не поддерживает цифровизацию
Непростой выбор в части хранения и обработки данных: делать свою инфраструктуру (нужны инвестиции) или довериться облакам (вопросы безопасности)

Иллюстрация3

Насколько быстро, по вашему опыту, окупаются такого рода проекты

Есть как быстрые проекты (окупаемость за месяцы), так и медленные (за годы).

Базовая рекомендация для предприятий без опыта инноваций и цифры - начинать с малых проектов. Тем не менее, технологии уже зарекомендовали себя и промышленность готова инвестировать в долгую.

Насколько в применении этой технологии Россия зависима от импортного оборудования и ПО

В части компьютерного железа высокая зависимость. Для работы с Big Data нужно общепромышленное высокопроизводительно оборудование. Отечественные Эльбрусы и Байкалы не годятся, так как слишком дороги в пересчете на мощности.

Платформенное ПО обычно тоже иностранное. Разработка отечественных систем актуальна, и многие компании занимаются созданием своих платформ.

В части прикладного ПО зависимость низкая, так как общеотраслевых универсальных решений нет. Идет формирование рынка и разработка, в том числе отечественных, продуктов.

Еще есть ограничение, связанное с тем, что чтобы собирать Big Data, нужны датчики на оборудовании, и, если оборудование (станки, машины) иностранное, то дооснастить такое оборудование существенно сложнее и зачастую невозможно без участия оригинального производителя.

Как администрирование данных регулируется в правовом поле, какие возможны проблемы на имеющейся регулятивной базе

Для промышленной Big Data отдельного регулирования нет. Есть законы, регулирующие телеком и связь как передачу данных, законы регулирующие компьютерные программы (авторское право) и базы данных.

Данные в общем виде считаются собственностью того, кто их создает, и того, кому «генератор» их передает/лицензирует для использования.

Отдельный блок – персональные, медицинские и другие специализированные виды данных, в случае с которыми существует свое законодательство.

Иллюстрация4

Какие есть преимущества и риски в обмене данными IoT, проблемы безопасности

Преимущества:

Генерация данных на самих устройствах (рост точности и оперативности)
Снижение требований к трафику при проведении расчетов/анализе на конечных устройствах
Автономность систем (M2M общение)
Оперативность принятия решений и совершения управляющих воздействий

Риски:

Безопасность
- Утечка данных
- Подделка данных
- Внешнее воздействие на устройства
В IoT нужно искать баланс между сложностью систем, функционалом и автономностью (энергоэффективность, децентрализация)

Какие возможности для технологических прорывов дает Big Data

Автономность (5-го уровня, «безлюдность») – у всех на слуху
- Полное исключение «человеческого фактора»: снижение ошибок и выход за границы возможностей человека
- Самокомплектация, самообслуживание по состоянию и самовосстановление
Сокращение затрат (время, прямые затраты) на разработку, тестирование гипотез и т.д.:
- Автоматизированная разработка и проектирование с AI
- Виртуальные испытания
- Цифровые двойники всего
Автоматическое нахождение новых логических взаимосвязей между разными факторами и выработка решений