人民网
人民网>>传媒>>人民网奖学金>>哈尔滨工业大学>>哈工大2019

Cleanits:制造业时序数据清洗系统

丁小欧
2020年01月16日11:11 | 来源:人民网研究院
小字号

摘要: 目前,制造业机器设备和传感器采集了大量时间序列数据,能够为实现智慧工厂提供故障诊断、需求预测、产品优化等方面的决策支持。工业大数据分析的合理性和可靠性对数据质量提出较高要求,然而机器采集的原始数据中往往混有许多错误。基于此,结合实际制造业数据质量问题现状,本文研究并开发了一个制造业时序数据清洗系统:Cleanits. 该系统实现了对三种严重的制造业时序数据质量问题的检测和修复,有效地提高制造业大数据的质量及其可用性。

关键词: 工业大数据;时序建模分析;数据管理;数据挖掘;机器学习.

数十年来,随着工业化和现代化进程的推进,我国制造业持续快速发展. 在新一轮科技技术创新革命面前,中国制造业也得到了新的发展机遇. 智能制造是工业大数据的载体和产生来源,也是工业大数据形成的数据产品最终的应用场景和目标. 工业互联网的智能工厂是智能制造的核心,包括了现代化工业制造生产线传感器设备、制造装置监视器等多个智能化子系统,实现对生产整体运行状态和运行环境的实时记录和感知,已经积累并正在产生大量的工业时序数据.

由于制造系统中存在产品质量缺陷、精度缺失、设备故障、加工失效、性能下降、外部环境突变等或显性、或隐性的异常问题,数据质量管理和数据清洗是实现精益生产和智能制造的重要的具体任务,也是工业大数据分析中的重要研究问题. 如果工业产生中的异常、故障、危机情况不能及时地被有效识别,将导致生产环境存在隐性安全隐患,很可能给整个智能工厂系统造成重大经济损失. 目前,在高维时间序列数据中的复杂数据质量问题也逐渐引起重视, 而工业大数据具有大体量、多源异构性强、连续采样、价值密度低、动态性强等特点,这为工业大数据的数据质量管理问题带来了难度和挑战. 已有工作未能实现对多维序列的相关性信息的挖掘和利用,大量错判、漏判的情况导致数据清洗方法性能的降低.

基于此,本文开发了一个制造业时序数据清洗系统. 本文的主要贡献总结如下:

(1) 本文提出了Cleanits——制造业时序数据清洗系统,该系统是国内外研发的首个面向实际工业时序数据、实现多类数据质量问题的智能检测与修复的数据清洗系统。

(2) 本文提出了工业大数据中高维时间序列上的错列问题的检测与修复算法。该研究首次形式化定义了高维工业时序数据中的一种严重的不一致问题,并提出一个较为完备的解决方案。

(3) 本文提出基于相关性分析的多维时间序列数据异常检测方法,在训练过程中有效挖掘各个维度上序列的相关关系,实现了对异常数据的精准定位和识别,从而提高了异常检测方法的准确度和效率,实现了对于模式多样、工况多变的工业时序数据的智能化、全面化的异常检测.

(4) 通过在真实的工业时序数据集上的开展实验,本文验证了系统的有效性和高效性.且通过页面截图展示介绍了本文所提出的系统具有有效性、用户友好交互性等优点。

1. 系统概述

1.1 课题来源

本系统的课题来源于以下项目:

(1) 国家重点研发计划课题《面向高端制造领域的大数据管理系统》中《数据驱动的高端制造大数据管理系统的工具研制》子课题,课题编号:2016YFB1000703.

(2) 《面向浙江省制造业的大数据分析理论与关键技术研究》,NSFC-浙江两化融合联合基金,项目编号:U1509216.

1.2 系统功能介绍

本文提出的Cleanits——制造业时序数据清洗系统,主要包括五个模块,如图1所示,其中包括三个数据清洗模块:

(1) 缺失值填充模块 实现对序列中的不完整数据和不精确数据的有效识别和清洗。

(2) 不一致数据清洗模块 实现对多维时间序列中的错列问题的有效检测识别和修复。

(3) 异常数据清洗模块 实现对数据进行异常检测,分为异常点检测和模式异常区间检测两个部分。利用基于统计和基于学习模型的算法对异常数据进行清洗。

以及两个功能的模块:

(4) 指标分析模块 实现对序列统计指标的分析、基于工况的子序列模式识别、序列相关性分析和时间开销计算功能。

(5) 用户交互模块 实现带标签数据样本读取、领域知识(约束)读取、参数设置、以及清洗模式选择功能。 

1.3 系统特点

在智能制造领域,全面、完备、可靠的工业大数据清洗系统已经成为目前一项迫切的需求。针对制造业大数据的特点,以及产业的数据质量管理需求,本文提出的Cleanits系统有以下特点:

(1) 工业有效性: 对于三类严重的工业数据质量问题:序列片段缺失、序列区间错位、异常序列区间,实现了有效的检测和修复。

(2) 智能化:本系统设计相应的模块,支持对领域专家知识、工业设备结构图、有标签的样本数据等进行智能化建模分析,提高数据清洗算法的精度。

(3) 用户定制化:本系统设计了全面、高效率、自动、要求时间这四种清洗模式,用于满足不同工业用户的需求。该系统是国内外研发的首个面向实际工业时序数据、实现多类数据质量问题的智能检测与修复的数据清洗系统。

此外,本系统的研发对推动目前工业大数据的数据质量管理、乃至大数据治理也有着指导意义:

(1) 功能完备:本研究充分考虑到工业大数据质量管理中的多个主要任务,并设计有效的方法加以解决。

(2) 量质融合:通过对算法计算效率的优化和数据清洗任务步骤的有序安排,考虑到数据“量”对数据清洗系统提出的要求;通过提供有效、可靠的数据清洗策略,考虑到数据的“质”对系统的要求。

(3) 以点带面:本文提出的系统为工业大数据管理系统开发,提出的技术和思想是为解决一类数据质量问题提出,具有较强的跨行业迁移性。该系统中的许多方法模型也适用于医疗大数据、金融大数据等类似的大数据管理系统。

2. 研究内容概述

2.1 基本定义

2.2 方法概述

在本系统实现的三个数据清洗功能中,我们主要研究了缺失值填充修复、高维时序数据中错列问题的检测与修复算法、高维时序数据的相关性计算模型、基于相关性分析的异常工业时序数据检测方法。由于篇幅的限制,我们在第3、4节主要介绍高维时间序列中错列检测与修复算法和于相关性分析的异常工业时序数据检测方法。

3. 高维时间序列中错列检测与修复算法

为了解决高维时间序列上的错列问题,我们的算法主要分为序列异常模式检测、错列匹配、错列最终修复三部分。

问题说明:错列部分以连续的区间形式存在,偶然出现在多维时间序列的某几列上,同一个错列问题(定义为一个错列模式)涉及到的子序列具有相同长度。不同错列模式发生的时间可能会交叉。

解决目标:准确识别多维时间序列上的错列问题,准确定位错列区间、以及发生错列的列号,完成对错列的准确匹配修复。

我们用群上的“置换”结构表示一个错列修复方案,每个置换可看做若干个轮换的乘积。例如修复方案:(1,2)(3,4,6)可看做(1,2)轮换和(3,4,6)轮换的乘积。我们把每个轮换作为最小的修复单元进行分析。根据问题定义,错列问题出现在连续的时间区间上,因此我们设计算法逐个检验每个轮换的使用区间(即分析步骤二的匹配结果),将近邻的采用相同修复模式的区间进行合并,对采用孤立修复模式的小区间进行修正,以达到提高修复度的目的。在这步算法中,我们也使用并查集结构,实现对区间合并的高效率操作。

4. 基于相关性的时序数据异常检测与修复算法

4.1 方法概述

本文提出的基于相关性计算的多维时间序列异常检测方法如图3所示,主要包括数据预处理、时序数据相关性计算以及异常检测三个部分.

数据预处理 由于采集的原始工业时间序列数据里存在一些数据质量问题,因此在数据预处理部分,需要对原始的时间序列数据进行时标对齐、缺失值填充等准备性操作,将整理好的高质量数据输入到后面模块进行计算分析.

时序数据相关性计算 将准备好的时间序列数据按工作周期模式进行分段,得到若干个时间子序列组,对每个子序列组分别进行序列PAA处理、计算相关性参数生成相关性矩阵、根据矩阵中的元素值,建立时序相关性图,并根据相关性阈值,划分图上的时序相关团.

异常检测 在异常检测部分,我们利用已计算得到时序相关性图模型对待检测数据中隐藏的异常数据进行检测识别.对于彼此存在相关性的序列集合,我们采用基于相关性参数计算异常检测的方法,对时序相关团内以及不同团之间分别进行异常数据挖掘与识别.对于与其他序列无明显相关的序列,我们进行单维序列异常检测.上述检测步骤能够在节约计算时间的情况下,实现高质量的异常数据挖掘.

按数据处理过程,该方法分为训练阶段和测试阶段.

在训练阶段,我们将各维上的历史序列数据作为训练数据集,对所有维数上的时间序列进行相关性计算分析,建立时间序列相关性图模型,并记录各时间序列之间的相关性信息.在测试阶段,我们输入待检测的时间子序列组,利用已训练完成的相关性图模型,对时序相关团内、时序相关团间、及孤立点上的序列进行异常模式挖掘与识别,最后判定并输出异常数据在整体测试数据中的具体时间区间和具体维序号,完成异常检测过程.

4.2 序列相关性建模分析

在得到K条时间序列的相关系数矩阵SCM后,为了有效地表示序列间的相关关系,我们提出序列相关性图模型,根据矩阵中元素取值,对序列的相关关系进一步计算.我们首先构建时序相关图,对于一个给定传感器组S_m上的K维时间序列数据,建立一个无向的时序相关性图G_r (S)=(V,E),其顶点集合记录了所有序列,边集合记录了序列间是否存在大于阈值的相关性信息,构建时,我们首先初始化无向的时序相关性图G_r=(V,E),然后我们依次遍历生成的〖SCM〗_(K×K)矩阵的上三角(或等价的下三角),将相关性参数大于等于θ_c的两个顶点之间连一条无向边,直至矩阵遍历完成,结束建图.

为了进一步分析图Gr上不同相关强度的时间序列组,我们提出时序相关团(Time series correlation clique)的概念,通过计算图的连通分量并进行必要的剪枝处理,挖掘和识别多维序列中的异常模式,并且提高异常检测方法的效率.

4.3 基于相关性的异常检测算法

在构建完成时序相关图模型后,我们接下来利用该模型对多维时间序列异常模式进行检测.在检测过程中,我们仍然采用时间子序列组作为基本分析单位,在测试过程中,逐段进行异常检测分析.对于一个传感器组S的第l个时间段的K维时间序列,检测过程如算法2所示.

算法2的异常检测主要分为两个步骤:第3-15行进行时序相关团内的异常序列检测;第16-20行进行时序相关团之间的异常检测.在团内检测过程中,我们维护一个无向图G_B记录C_i的异常检测操作过程.我们遍历团内所有边,检测边权值的大小.根据时序相关图的定义,同一个团内的序列都是以很高的相关性阈值相连,因此若检测到边权低于给定的相关性阈值θ_c,则认为异常存在于该边相连的两个点之中,我们将出现异常权值的边加入G_B(第9-10行).此时, G_B与C_i有相同的顶点结构,且G_B的边集合记录了候选的异常顶点.在第10行我们去掉G_B上没有边相连的顶点,即没有发生异常的顶点.在得到的新G_B上计算确定异常的具体位置. 记录候选异常序列的图G_B上.

在第12行,我们将对G_B执行的二分图的最小顶点覆盖结果作为异常序列的识别结果输入AD(S)集合. 由于无向图上最小点覆盖问题已被证实是NP完全问题,若G_B判定为不是二分图,我们采用贪心策略去寻找真正的异常序列,具体步骤是:在G_B中选择一个度最大且至少为1的顶点度最大且至少为1的顶点v,将其标注为异常,然后删除与v相连的边.重复执行这一操作,直到所有顶点的度均为0,以此方法求得异常序列集合,将其加入AD(S)中.此外,在后面步骤中(第14-15行),我们去掉异常序列重新计算时序团的特征序列进行迭代的计算,保证加入AD(S)结果集合中的序列是真实的异常序列,尽可能地避免错判和漏判.

在时序相关团内计算后,我们进行时序相关团之间的计算,通过对G_A的计算,实现对整体发生异常而未能被计算得出的异常团进行识别,其计算流程与时序相关团内计算相似,此处不再赘述.

5 系统页面展示

本系统的页面设计主要分四部分:顶部导航栏区分不同的数据清洗具体算法,左侧列举三种数据清洗方法功能。页面中部为数据展示处,右侧为算法参数配置区域,也是系统与用户交互的重要页面部分。图4显示了缺失值填充的清洗结果。对不完整序列部分采用统计学上的自回归修复,蓝色线即为经系统计算后得到的修复结果。

图5显示了序列上的异常检测与修复功能。红色点即为被系统检测到的发生异常的数据点,蓝色为修复结果。用户可以通过右侧的参数配置栏选择具体的修复算法和数据导出路径。

图6显示了高维时间序列中错列部位的检查页面,系统处理数据后,将会把发生错列的列名称、错列具体位置返回到系统页面上,经用户确认后,通过点击相应按钮,可得到错列的修复结果。

6. 研究成果总结

本文提出了一个制造业时序数据的清洗系统,实现了对制造业大数据中普遍存在的三种重要的数据质量问题的检测和修复。真实的制造业数据上的实验表明了本文所提出方法的有效性和可靠性。本文研究内容共完成学术论文3篇,其中包括已发表论文1篇,修改后待录用论文1篇,在投论文1篇。

(1) Xiaoou Ding, Hongzhi Wang, Jiaxuan Su, Zijue Li, Jianzhong Li, and Hong Gao. Cleanits: A Data Cleaning System for Industrial Time Series. PVLDB, 12(12): 1786-1789, 2019. (中国计算机学会推荐的A类学术会议).

(2) 丁小欧, 于晟健, 王沐贤, 王宏志,高宏, 杨东华. 基于相关性分析的智能化工业时序数据异常检测.软件学报. (中国计算机学会推荐的A类国内期刊, 修改待录用,已受邀在2019年全国数据库会议上做报告).

(3) Xiaoou Ding, Hongzhi Wang, Jiaxuan Su, Muxian Wang, Hong Gao. Inconsistent Data Cleaning on High Dimensional Industrial Time Series. IEEE Internet of Things Journal 2019. (中科院期刊分区:信息系统1区,已投稿).

(责编:刘扬、赵光霞)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部