面向图计算的专用计算机

2021-11-30
分享

围绕图计算高并发、快响应、低延时的现实需求,项目组研制了基于数据流的图计算专用计算机,取得国际上最好单节点计算效率,成果已应用于金融、电力、社交分析等多种场景。项目成果致力于图计算技术生态的构建,有助于大数据产业的整合、升级和推广。

成果名称:面向图计算的专用计算机

成果单位:华中科技大学

image.png

万物皆关联,图是表达实体间内在关系的高效数据结构。作为大数据处理的典型应用,图计算是基于图结构进行巨量、稀疏、超维关联的挖掘和分析的一种计算模式。通用于各类计算领域的传统计算机体系结构在图计算新的需求面前陷入困局,遭遇架构层算力墙、系统层效率墙、应用层编程墙的严峻挑战。围绕图计算高并发、快响应、低延时的现实需求,项目组研制了基于数据流的图计算专用计算机,取得国际上最好单节点计算效率,成果已应用于金融、电力、社交分析等多种场景。项目成果致力于图计算技术生态的构建,有助于大数据产业的整合、升级和推广。

一、技术创新点

1、硬件架构创新——国际上首款面向图计算的数据流加速器

以数据驱动指令,实现高度并行与乱序执行,破解了控制流体系结构并行效率低、存储效率差、同步开销大“两墙一锁”难题,且首次提出对复杂图计算场景的硬件加速。基于Graph500国际标准测试集,可实现270亿次每秒可遍历边数的吞吐能力,性能功耗比提升10倍以上,取得国际上单节点最高计算效率。

2、系统软件创新——面向图计算的高效运行时系统

创新加速器和主机融合的异构计算模式,提出“数据价值化”理论模型,利用价值驱动的子图分类机制实现按需数据传输,大幅提升带宽利用率。研发了基于符号迭代的图计算系统,攻克了图计算稀疏关联特征和加速设备众核化趋势所引发的并行关系管理难题。提出的图计算系统已成功运用解决程序设计语言、科学计算等其他领域中多线程程序海量数据依赖分析的核心挑战。

3、开发模式创新——国际上首个图计算领域专用的全流程高层次综合系统

上层支持用户友好的高级开发语言(C、Scala语言等);中间层将算法和硬件解耦,设计了模块化的数据流中间表示码,可通过高层代码灵活定制加速器;底层提供参数化硬件模板,可快速定制图算法。相比现有赛灵思Vivado HLS,性能可提升两个数量级,取得了学术界和工业界最好结果,且首次实现了对新型高带宽存储设备(HBM)的支持。

4、算法创新——多场景下的新型图数据结构和算法优化

面向加速器多级存储,设计了图的紧凑数据结构,大幅提升访存效率。针对多加速器场景,提出基于图缩减和动态再划分的分布式计算方法,极大提升了性能。针对大规模图查询,实现复杂join操作为代表的典型图计算算子和归并访存优化,显著提高吞吐量。面向高速变化的图流,提出了基于概率数据结构的图摘要技术,可以在线性空间和常数时间范围内执行图更新等操作,极大提高了图流处理性能。

image.png

二、现实场景解决方案

基于专用图计算机的整体解决方案,已应用于电力系统分析、金融医保反欺诈和用户在线交易行为分析等多种重要场景。

1、国家电网电力图计算

电力图属性复杂且计算密集,项目组对潮流计算和状态估计两个重要应用进行了部署,计算时间均从秒级下降至毫秒级别,性能分别提升约28.5倍和209.2倍。

2、平安金融医保图反欺诈检测

传统基于手工的金融医保欺诈检测方法性能有限且容易规避。项目组在平安真实的城市医保数据集上构建关系图,并进行加速系统部署,性能提升4倍以上。

3、阿里电商图用户行为分析

电商商家的刷单行为可通过特定交易图模式匹配的方法判断。项目组采用天猫2018年双十一期间的10亿边规模交易数据部署检测,相比传统方案效率提升40%以上,目前已上线应用。