窦德景:“前进·AI异构计算平台”推动大模型场景加速市场化应用
图片来源于网络,如有侵权,请联系删除
新华网北京7月9日电(记者 陈听雨) 实现"国产算力自主可控"是确保信息安全和经济持续健康发展的关键,需要企业研发投入、人才培养以及创新生态构建等多方面的努力。7月5日,北电数智召开“前进·AI异构平台”发布会。会上,政产学研各领域嘉宾从不同角度、不同层面出发,就优化算力资源配置,推动行业高质量发展提供了宝贵的思路和建议。
北京电子数智科技有限责任公司首席科学家窦德景教授对前进·AI异构计算平台进行了介绍。
窦德景首先介绍了北电数智的产品矩阵,按照AI产业的技术栈,包括五大部分,分别是:星火智算、前进平台、宝塔框架、垂类模型矩阵,以及红湖数据可信空间。
他介绍,前进·AI异构计算平台是一个算力纳管、调度平台,主要工作是对国产算力进行管理,保障这些国产芯片能够有序、高效地为智算中心提供算力。
“前进·AI异构计算平台坚持全栈国产化,旨在高效管理和调度多种类型AI计算资源,以满足不同应用场景下的计算需求。”窦德景说。
同时,为加速人工智能产业发展,平台还围绕智算芯片、AI框架、基础模型开展全面验证,通过场景化牵引持续优化场景AI服务能力,推动AI芯片快速成熟,大模型场景加速市场化应用。
针对前进·AI异构计算平台的技术领先性,窦德景称,前进平台可以实现对国产芯片的统一调度和纳管,具体有三个技术特色:一是前进平台可以纳管多种国产算力芯片,实现算力统一管理,通过一个平台就可以运维、管理多种国产算力。其次,前进平台提供多种调度策略,充分发挥硬件能力,释放智算中心产能,调度策略的优劣,尤其是精细化调度,可以提升智算中心的运行效率,效率越高也就意味着同样的硬件设备可以服务更多的客户。第三,平台充分照顾广大用户的使用习惯,对智算中心进行云化管理,用户可以像使用云资源一样灵活、弹性的使用算力资源。
窦德景表示,目前,前进平台已经可以纳管、调度多种国产芯片,算力在前进平台的管理下,可以更高效、稳定地为智算中心提供服务。用户可以采用实例租用的形式,即在平台上开一个虚拟机,自行部署开发环境。
此外,前进平台还提供模型适配和迁移能力,平台提供了一个适配层,可向上兼容Pytorch、DeepSpeed等开源框架,提供兼容这些框架的接口,向下自动适配用户所选的国产算力,这样就可以让模型在多种国产算力之间自由的进行迁移,且这种迁移用户是完全没有感知的。
与此同时,前进平台提供了类似生产环境的评测、适配、技术验证平台,可以评测国产芯片的基础性能,给出近似生产的环境的真实评测、验证数据。结合国内主流芯片能力以及大模型参数规模,以千卡混合集群构建近似生产环境验证平台,全面测评 “千亿参数模型”、“复杂场景”、“规模化集群”下的性能表现,为业界提供权威参考,为万卡万亿大模型的演进方向提供经验。
这些查询接口已正式发布,用户可以通过北京数字经济算力中心访问。包括芯片的基础性能、算力性能、负载性能等,都可进行评测和查询。
窦德景表示,目前北电数智已经将前进平台部署到北京数字经济算力中心,一方面可以对外提供算力租用服务,另一方面可以提供适配以及迭代验证服务。平台初步具备国产“算力四力”迭代验证条件,并进一步推进迭代验证方法体系,形成业界认可的公正性、权威性测试认证品牌。
具体而言,何为“四力”呢?窦德景对此表示,一是算力,验证确定小规模、中规模、大规模集群场景下,芯片的计算能力;二是联力,验证国产芯片生态算子情况,是否支持在指定、合理时间内完成对模型和业务的支持;三是生态力,验证卡间通信、机间通信功能,配合网络环境检测国产算力网络连接情况;四是供力,通过大规模芯片供应情况,检测国产算力产能和供应链健康程度。
促进技术创新与产业协同,充分发挥国产化软硬件协同优势,以北电数智为代表的人工智能原生国企企业,未来将持续以创新驱动,共同拓展行业生态合作圈,持续赋能人工智能产业发展。
【责任编辑:周靖杰】