Проект 14.607.21.0176 от 26.09.2017,
уникальный идентификатор проекта RFMEFI60717X0176.
Разработка информационной системы поддержки технического обслуживания и предиктивного ремонта объектов жилищно-коммунальной инфраструктуры в рамках концепции Интернета вещей
Цель проекта
Исследование и разработка комплекса программно-технических и конструкторских решений на основе концепций облачных вычислений и Интернета вещей, направленного на создание информационной системы, обеспечивающей поддержку технического обслуживания объектов (элементов) жилищной инфраструктуры в целях оперативного контроля их состояния, поддержки технического обслуживания, предиктивного ремонта и оповещения о возникающих нештатных ситуациях и регулярных событиях.
Задачи проекта
- разработка масштабируемой архитектуры сбора, хранения, обработки и анализа данных с датчиков элементов жилищной инфраструктуры;
- выбор программных средств поддержки, разработка и реализация алгоритмов сбора данных с датчиков элементов жилищной инфраструктуры;
- выбор программных средств поддержки, разработка и реализация алгоритмов хранения и обработки данных;
- выбор программных средств поддержки, разработка и реализация алгоритмов обнаружения нештатных ситуаций, регулярных событий;
- выбор программных средств поддержки, разработка и реализация алгоритмов прогнозирования;
- нештатных ситуаций и выхода из строя объектов (элементов) инженерных систем;
- разработка экспериментального образца информационной системы мониторинга, поддержки технического обслуживания, реализующего указанные архитектуру и алгоритмы.
Организация сбора данных от множественных датчиков, связанных с объектами жилищной инфраструктуры, должна включать технологии, обеспечивающие максимальную доступность вставки данных с учётом потенциально большого объема поступающих данных в единицу времени. Такими технологиями, в частности, являются системы управления базами данных (СУБД) с буферизацией вставок и обновлений и некоторые системы потоковой обработки данных.
В отличие реляционных СУБД, большинство СУБД класса NoSQL используют системы транзакций с буферизацией обновлений. Распространённым принципом построения архитектур систем обработки данных является сбор данных коротких транзакций в базу данных NoSQL, обеспечивающий высокую скорость приёма, а затем периодическая выгрузка данных из базы данных в распределённое хранилище (на основе распределенной файловой системы), над которым работают средства анализа данных, требующего длительного времени для пакетной обработки данных. Данная схема обработки обычно выбирается для данных, не требующих немедленного реагирования.
Необходимость потоковой обработки данных и выбор технологии её обеспечения зависят от оценки объёмов входных потоков и от дифференциации различных типов сообщений, требующих немедленного реагирования и мониторинга или допускающих однообразную обработку в пакетном режиме с определённой периодичностью.
Приём и обработку потоковых данных обеспечивают такие открытые программные продукты, как Kafka и Spark Streaming. Kafka обеспечивает доступность за счёт очередей событий и не может гарантировать актуальности обновляемых данных. Spark Streaming является надстройкой над вычислительной инфраструктурой Spark и создаёт пакеты данных по небольшим временным интервалам, состоящие из ряда наборов данных для обработки.
Обеспечение масштабируемости входных потоков данных с датчиков по объёму данных, пропускной способности и производительности вычислений в условиях высокой нагрузки при работе с множеством источников данных требует использования технологий распределённого хранения данных и распределённых вычислений. В качестве технологий хранения и обработки данных используются инфраструктуры распределённой обработки больших данных, такие как Hadoop и Spark. Инфраструктура Hadoop основана на модели вычислений MapReduce и хорошо работает в таких задачах распределённой обработки данных как сортировка, фильтрация, обработка данных небольшим количеством операций, преобразование данных к требуемому виду. Hadoop может распределять обработку данных по узлам в зависимости от места их хранения, типов данных, значений определённых характеристик. В качестве хранилища данных в инфраструктуре Hadoop используется распределенная файловая система HDFS, обеспечивающая как хранение данных на множестве узлов, так и репликацию, восстановление после сбоев и решение других задач. Технология вычислений в Hadoop имеет существенные недостатки, которые могут повлиять на выбор другой инфраструктуры в данном проекте. Сложности возникают при организации распределённых вычислений, требующих многоэтапной обработки данных, итеративных и циклических процессов, к каким, в частности, относятся многие методы машинного обучения. Существуют вариации программного обеспечения, позволяющие реализовать циклы, итерации и рекурсии в Hadoop, однако для них наработано меньше библиотек методов. Инфраструктура распределённых вычислений Spark позволяет выполнять расширенный по сравнению с Hadoop набор операций над распределенными наборами данных. Последовательные операции могут производиться в оперативной памяти без записи в хранилище, поэтому использование данной инфраструктуры предпочтительно при большом количестве операций, применяемых к данным. Spark собственными средствами не обеспечивает распределенного хранения данных, и в качестве хранилища в него может быть интегрирована распределённая файловая система Hadoop.
Для разработки алгоритмов обнаружения нештатных ситуаций, регулярных событий, прогнозирования нештатных ситуаций и выхода из строя объектов (элементов) инженерных систем используются методы поиска аномалий, основанные на анализе временных рядов. При этом возможно построение ежедневных, (недельных, месячных, сезонных) профилей потребления электроэнергии, излучения тепла, вибраций. Дальнейший анализ этих профилей может включать выделение признаков из полученных профилей для дальнейшего применения таких алгоритмов машинного обучения как SVM, решающих деревьев, нейросетей и других.
Ожидаемые результаты
- Анализ технологий сбора данных с устройств в концепции «Интернет вещей»;
- Анализ технологий сбора и обработки потоковых (в частности, сенсорных) данных;
- Анализ технологий распределённого хранения данных и распределённых вычислений;
- Анализ методов спецификации, реализации и верификации правил интеграции данных;
- Анализ методов машинного обучения, применимых к задаче оценки степени износа объектов жилищной инфраструктуры, и методов детектирования аномалий, применимых к обнаружению нештатных ситуаций;
- Архитектура масштабируемой платформы сбора, обработки, анализа данных с датчиков элементов жилищной инфраструктуры;
- Модель данных (схема), обобщающая разнообразные структуры данных, поступающих с датчиков элементов жилищной инфраструктуры;
- Метод сбора данных с датчиков элементов жилищной инфраструктуры, включая преобразование данных к единой схеме;
- Метод обнаружения и обработки нештатных ситуаций, позволяющий вовремя обнаружить выход из строя объектов жилищной инфраструктуры и другие аварийные ситуации;
- Метод определения и обработки регулярных событий (например, истечения ресурса оборудования);
- Метод прогнозирования нештатных ситуаций и выхода из строя объектов (элементов) инженерных систем;
- Экспериментальный образец информационной системы мониторинга, поддержки технического обслуживания, в котором будут реализованы описанные выше методы.
Публикации
- Dmitry Kovalev, Ivan Shanin, Sergey Stupnikov, Victor Zakharov. Data Mining Methods and Techniques for Fault Detection and Predictive Maintenance in Housing and Utility Infrastructure. International Conference on Engineering Technologies and Computer Science (EnT), P. 47-52. IEEE (2018). DOI: 10.1109/EnT.2018.00016 https://ieeexplore.ieee.org/document/8420112
- И. А. Шанин, С. А. Ступников, В. Н. Захаров. Методы и средства обнаружения нештатных ситуаций, возникающих на элементах жилищно-коммунальной инфраструктуры // Информатика и ее применения, 12(3):67-73, 2018. DOI: 10.14357/19922264180310 http://synthesis.ipi.ac.ru/synthesis/projects/PredictiveMaintenance/Shanin2018.pdf
- С. А. Ступников. Спецификация и реализация разномодельных правил интеграции данных. Selected Papers of the XIX International Conference on Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2017). CEUR Workshop Proceedings, ISSN 1613-0073, Vol. 2022, P. 197-205 (2017). http://ceur-ws.org/Vol-2022/paper33.pdf
- В. Н. Захаров, Д. Ю. Ковалев, С. А. Ступников, И. А. Шанин. Математические методы анализа данных для обеспечения мониторинга и поддержки предиктивного ремонта элементов жилищной инфраструктуры. XIX Всероссийский Симпозиум по прикладной и промышленной математике (осенняя открытая сессия). Сочи, 22 – 30 сентября 2018 г. Пленарный доклад. http://synthesis.ipi.ac.ru/synthesis/projects/PredictiveMaintenance/Zakharov2018.pdf