云计算提供基于互联网的资源使用、交付和增加模式,已广泛应用于生产生活的各个方面。云操作系统(OS)是云计算的核心技术。过去十数年间,全球云计算产业已初步形成了较为完善的云OS技术体系,但缺乏统一的应用编程接口(API)规范,导致了生态的碎片化以及供应商锁定困境。
项目提出了以API为核心的云OS自主生态建设思路,归纳抽象出了云OS 基础及扩展API规范并获得了众多厂商的支持,初步形成了自主云OS生态。
成果名称:基于分层API规范的云操作系统生态建设
成果发布单位:
清华大学
华中科技大学
上海交通大学
北京航空航天大学
中国科学院计算技术研究所
阿里云计算有限公司
无锡江南计算技术研究所
国云科技股份有限公司
中国电子科技集团公司信息科学研究院
项目的技术方案和成果包括三个方面:
1. 立足已有的实践,抽象归纳API规范,奠定云OS生态基础
探究了通用和移动OS生态及其API的演化规律,确立了云OS API制定的原则。遵循“从应用中来,到应用中去”的指导方针,通过分析阿里云飞天、国云G-Cloud、中国电科华云、OpenStack、亚马逊AWS等已有的云计算实践,归纳抽象得到了云OS API规范。云OS API 分为基础API及扩展API,其中基础API亦称云OS最小内核API,是当前云计算实践的公共子集,共定义了 55 个,其封装了构建基本云计算服务所必需的功能;扩展API 共有 311 个,其进一步扩展了云OS最小内核的功能,减轻了开发者的负担。
2. 自主创新,提供云OS的参考实现,通过领先技术扩大生态影响
以上述API规范为基础,突破了以下核心技术,给出了一个技术领先的云OS参考实现,实现了技术向生态的融入。
在容器技术方面,突破了容器镜像快速构建与大规模分发、数据中心容器在线迁移、内核级容器自适应视图隔离等关键技术,形成了容器核心技术体系,并应用于阿里云容器平台,提供了具有重要国际影响力的公有云容器服务。
在新型设备虚拟化与巨型虚拟机方面,突破了GPU、FPGA这类复杂新型硬件的虚拟化关键技术,并适配了中国国产处理器;基于分布式QEMU和KVM提出了国际上首个通用Type II “多虚一”巨型虚拟机GiantVM架构,填补了空白。
在多粒度资源池化与管理调度方面,突破了异构资源池化管理优化、分布式资源超售、超大规模在线离线混合负载调度等关键技术,研制的大规模在离线业务混合部署与资源调度技术已经成功应用于阿里云伏羲调度系统,支持万节点集群的规模部署与在离线混合负载调度,可提供秒级故障恢复能力。
在分布式文件系统方面,突破了大规模纠删码的实现与优化、基于再生码的数据划分等关键技术,在国际上首次实现了基于32+16纠删码、能满足实际应用需求的高可靠自维护存储系统TStor;所研发的超高性能缓存文件系统MadFS 助力“鹏城云脑II”连续两次以较大的优势夺得全球IO500排行榜榜首。
3. 可持续发展,构建并运营云OS开源社区,实现生态因素的良性互动
开发了API规范一致性测试工具,可自动对API服务接口及应用场景进行分析,生成满足覆盖率需求的测试用例并完成评测,确保了API实现严格遵循规范,避免了生态的分裂;搭建完成了自己的开源社区门户http://bbs.cloud-edu.cn/和源代码托管平台,托管了项目所开发的云OS最小内核、容器热迁移、巨型虚拟机等在内的 10 余个开源项目,实现了开源项目贡献者、维护者和修订者以及用户之间的良性互动。
项目成果确保了不同云OS/服务的互操作性,避免了重复开发,有助于推动技术持续迭代和行业整体创新。目前,云OS最小内核API已获阿里云、华为云、浪潮云、中国电科华云等的支持,支持了异构云平台的构建,经济和社会效益良好。