大规模知识图表示学习的体系化基础算法及开源工具

2022-11-09
来源:光明网
分享

11月9日,在2022年世界互联网大会乌镇峰会期间,2022年“世界互联网领先科技成果”发布。大规模知识图表示学习的体系化基础算法及开源工具入选。

人工智能要谋求新突破,离不开大规模知识计算,知识图表示是其中的一个关键。2010年以来大数据驱动的深度学习范式表现出了巨大威力,但依然存在缺乏推理能力和局限性。

清华大学针对大规模知识图表示学习中内部关系类型复杂、内部推理路径繁复、外部富信息利用匮缺这三个全局性技术难题,建立了基于深度学习框架的体系化基础算法。技术创新包括:基于关系类型专属语义空间投影的TransR算法、复杂关系路径推理的PTransE算法、融合实体文本属性信息的TADW算法、融合实体定义文本描述信息的DKRL算法、融合实体类型层次信息的TKRL算法、融合关系文本描述信息的ATT算法以及互注意力机制驱动的语言模型与知识图耦合JointE算法等。这些技术创新,显著提升了大规模知识图表示的性能。

目前,相关8篇代表性论文Google Scholar引用共6185次(最高单篇引用达2611次)。基于该算法体系,清华大学在最具影响的国际开源平台GitHub上发布了3个开源工具包,形成了一套知识图表示学习开源系统,共获逾1万个星标及逾3千次分支创建,成为国际上知识图表示学习的体系化主流工具之一。同时也部署在新一代人工智能开源开放平台OpenI上,支持开源应用生态建设。

项目团队还将该开源工具包应用于世界上两个最著名的大规模通用知识图谱Freebase和Wikidata,以及中文知识图谱上,构建了多个千万级实体与亿级关系三元组规模的知识图表示模型。据介绍,这是国际上最大的开源知识图表示模型之一。