工业物联网时序数据库管理系统关键技术及应用

2021-11-24
分享

工业物联网机器设备感知形成了海量工业物联网时间序列数据(每条时间序列是按时间戳顺序存贮的一组数据点),是工业大数据的规模与价值主体。工业物联网机器设备感知形成了海量工业物联网时间序列数据(每条时间序列是按时间戳顺序存贮的一组数据点),是工业大数据的规模与价值主体。

成果名称:工业物联网时序数据库管理系统关键技术及应用

成果单位:清华大学

image.png

工业物联网(IIoT)将机器设备、控制系统与信息系统、业务过程连接起来,利用海量数据进行分析决策,是智能制造的基础设施,并影响整个工业价值链。工业物联网机器设备感知形成了海量工业物联网时间序列数据(每条时间序列是按时间戳顺序存贮的一组数据点),是工业大数据的规模与价值主体。

时间序列数据库管理系统(Time Series DBMS)是面向时间序列提供优化存储和查询服务的系统软件,是数据库系统的重要类型。数据库权威排名网站DB-Engines发布的数据库关注度图显示,时间序列数据库管理系统是近三年来关注度增长最快的领域。然而,工业物联网“端-边-云”复杂应用需求进一步考验了快速数据获取、实时洞察发现和高效边缘处理三大能力。已有时序数据库产品无法满足上述新需求,其挑战主要体现在文件存储结构、元数据管理模式、鲁棒处理技术三个方面。

image.png

围绕上述挑战,项目组按照“一纵一横”两条主线开展体系化创新。

在纵向主线上,紧扣工业物联网时序数据的“序列(全序)+ 集合(无序)”双重特性,按照数据三层抽象理论体系开展攻关,在物理层、逻辑层、应用层均取得了创新成果:

在物理层,形成了时序数据自适应存储技术,创新了紧致列式存储文件格式TsFile和副本优化方法,实现了工业物联网时序数据在物理磁盘上的高压缩比存储和高速读写;

在逻辑层,形成了元数据自动识别技术,创新了端-边-云两阶段元数据识别方法和序列片段级工况标签识别方法,解决了工业物联网时序数据的表示与理解难题;

在应用层,形成了时序数据高鲁棒处理技术,创新了乱序容忍的时序数据接收处理技术和工业物联网低质数据清理技术,突破了从低质数据中实现提质增效的行业瓶颈。

在横向主线上,围绕工业物联网“终端-边缘-云侧”分布式计算平台,创新了存储、查询和处理解耦的端边云一体化数据协同架构,自主研制了工业物联网时序数据库系统软件“清华数为IoTDB”,单机写性能超过3200万点/秒、支持管理近亿条序列,云侧支持集群水平扩展;IoTDB开源版本经国际最大开源软件基金会Apache投票,成为工业物联网时序数据管理领域唯一Apache全球顶级项目,与PLC4X、Flink、Spark、Hadoop等工业物联网和大数据系统深度集成,共建工业物联网开源数据软件生态。

与以InfluxDB/GE Predix、OpenTSDB/KairosDB、TimescaleDB为代表的原生时序数据库系统、键值数据库和关系数据库改造的系统相比,IoTDB在数据管理/处理优势明显,数据查询/架构/生态具有特色。中国软件评测中心第三方测试报告显示,IoTDB在磁盘占用空间、写入性能、查询性能三个主要指标上领先于同类产品中性能最好的InfluxDB;第三方CNAS测试报告表明,IoTDB在写入延迟、遍历查询、聚合查询三个主要指标上优于美国GE Predix 4至11倍。

数据库事务恢复技术奠基者之一、美国工程院院士C. Mohan评价“IoTDB是中国高校首个达到国际顶级标准的数据库项目。”中国工程院院士廖湘科评价“IoTDB创新了数据存储与查询分析技术,是工业物联网的核心基础软件”。成果获2020年北京市科技进步一等奖。成果获2020年北京市科技进步一等奖。

image.png

目前,IoTDB已在钢铁冶炼、石油化工、飞机制造、核电、风电、智慧电厂、交通运输等多个领域得到应用,用户超过千余用户/企业,覆盖中国、德国、澳大利亚、美国、印度等多个国家。在中国,IoTDB有效支撑了中航成飞、中车四方、中国船舶、国家电网、中国烟草、金风科技、大唐电力、联想、东方国信、长安汽车等龙头企业工业互联网落地升级。国际上,全球最大的钢铁生产公司ArcelorMittal美国公司尝试IoTDB替代HBase+Spark数据管理体系、德国联邦经济和能源部资助成立的Pragmatic Industries使用IoTDB为德国宝马发动机缸体制造实时数据提供有力支持。