造芯、筑魂、创“天河” 他们书写超算中国速度

黑色机柜被整齐排成数行,高速运转的机器持续发出低沉的嗡鸣声,星星点点的负载指示灯不断闪烁……这里是“天河二号”的机房,硕大的超级计算机正在飞速运行。

过去的一年,新冠肺炎疫情席卷全球,来势汹汹。凭借超强算力,“天河二号”助力药物虚拟筛选,只用了3天时间便迅速定位了30余种潜在有效药物。在“天河二号”上搭建的新冠肺炎CT影像智能诊断平台,15秒即可完成一次CT图像诊断,为抗击疫情作出了重大贡献。

作为幕后功臣,国防科技大学计算机学院“天河”高性能计算团队(以下简称“天河”团队)功不可没。在刚刚过去的春节假期,团队上下60余人坚守岗位,以这样特殊的方式为祖国守岁。

肖立权:用光互联替代电互联

肖立权,“天河二号”副总设计师、“天河”团队互联通信方向负责人。

我国高性能计算起步较晚,要想赶上西方国家,唯有奋起直追。为了让我国高性能计算早日赶超西方国家,肖立权一拼就是30年。

“走别人没有走过的路很难,但我喜欢挑战!”这是肖立权常说的一句话。20世纪末,大规模计算机系统中通常采用电互联技术,信息传输速率慢且易受干扰,影响系统稳定性。这是我国研制千万亿次级超级计算机路上的一块“绊脚石”。

搬开这块“绊脚石”的最优解决方案,就是用光互联替代电互联,上级将这一重任交给了肖立权。

这条别人没有走过的路,注定充满坎坷。接下任务后,肖立权立即着手解决这项技术难题。然而,按照他的思路做出来的系统根本“跑不起来”。

“是哪里出了问题?”肖立权满脑子都是问号,午休时闭上眼睛,他脑海中全是屏幕上滚动的数据。

“没法睡!去实验室!”架起示波器、逻辑分析仪,肖立权全神贯注地看着屏幕,生怕错过关键数据。

解决方案被一次次提出,但又被一次次推翻。有一天,肖立权突然冒出一个想法:是不是数据传输有问题?这次灵光突现,让他一下找到了解决问题的“钥匙”。由此,我国光互联技术在大规模计算机系统中得到有效验证,这为后续该技术在超级计算机系统中的应用奠定了坚实基础。

2013年,是“天河”团队发展历程中浓墨重彩的一年。当年6月,“天河二号”研制成功,登上了世界超级计算机排行榜的榜首。

同年11月,为升级“天河二号”系统,肖立权和团队成员展开了为期10个月的封闭式攻关,力争完成核心器件国产化替代。经过这一轮攻关,肖立权带领“天河”团队大幅提升了“天河二号”高速互联通信系统的性能,使其运行速度达到当时国际商用互联系统的2倍,为下一代超级计算机研制奠定了基础。

郭扬:让国之重器澎湃“中国芯”

“天河二号”的“成长环境”并不十分“友好”,长久以来,西方国家在这一领域对我国实现严格的技术封锁。

曾有很长一段时间,我国信息系统软、硬件受制于人的问题难以得到解决。为攻克这一难题,“天河”团队再次奔赴战场。

“天河”团队微电子方向负责人、国防科技大学计算机学院研究员郭扬就是核心芯片这个战位上的先锋。

芯片制造技术是制造业的核心技术,超级计算机所需的芯片更被誉为“皇冠上的明珠”。为了摘取这颗“明珠”,郭扬坚守了20余年。今年春节,他依旧坚守岗位,在机柜间不停穿梭。在仅有几十米宽的机房里,他每天可以走出数万步。

运算速度(俗称算力)和功耗是超级计算机芯片的核心指标。通常来说,要想实现更高算力,就需要在芯片中集成更多的晶体管,但这就会增加芯片面积和功耗。研制超级计算机芯片的难点在于,要在保证高算力的前提下,尽可能减少芯片的功耗。为了早日攻克这一难题,曾有一段时间,郭扬四处奔波,到军队内外各地调研考察,出国参加学术交流活动,研究业内发展趋势,几经周折最终确定了走“基于自主指令集的异构融合架构”的技术路线。

这是一条崎岖难走的路。研制自主指令集的处理器芯片,意味着研发团队不仅要研制芯片,还必须同步研制出配套的编译器、算法库等全套软件系统。若采用现成的指令集芯片,工作量将减少数倍。

“这条路必须走!跟在别人后面、走现成的路,已无法实现技术领先。这条路,我们就算披荆斩棘也要走!”郭扬说。

此外,他还带领团队攻克了芯片研制中的其他大量技术难题,在他们的不懈努力下,最终使新一代超算芯片性能比前一代芯片提升了10倍以上。

20余年,从反向设计起步,到正向设计前行,再到向自主创新跨越;从架构设计,到前端验证,再到后端实现,郭扬和大家一路过关斩将,最终孕育出了芯片领域响当当的“飞腾”品牌。

2017年,“天河二号”系统升级完成,当时国内性能最优的4000余颗“飞腾”芯片被装在“天河二号”的“心脏”部位;在庆祝新中国成立70周年阅兵式上,嵌有“飞腾”芯片的多款战机、导弹在天安门广场亮相;2020年,北斗三号组网、嫦娥五号奔月、“天问一号”飞赴火星,这些装备上都镶嵌着“飞腾”的“中国芯”。

“未来,我和团队还要继续努力,让更多国之重器澎湃‘中国芯’。”郭扬说。

谭郁松:实现国产系统零的突破

“飞腾”芯片不是孤军奋战,“麒麟”操作系统是它的最佳搭档,它也是“天河二号”的“灵魂”。它们一硬一软,为“天河二号”搭台唱戏。今年春节期间,负责系统调试的人员聚精会神地盯着屏幕,手指不停地敲击着键盘。

忙碌之余,“天河”团队国产基础软件方向负责人、国防科技大学计算机学院研究员谭郁松说:“麒麟是中国的传统瑞兽,寓意吉祥和长寿。以它的名字命名,是希望系统能更好地为国家和人民服务,最终能实现国产系统的自主创新和可持续发展。”

“麒麟”是为超级计算机研制的服务器操作系统。其诞生之初,该团队将这一操作系统和国际主流操作系统进行了比较,而后发现了不少问题。一时间,网络上的质疑声此起彼伏。

怎么办?

谭郁松觉得,光在实验室里埋头搞研究不行,必须要走出实验室,在实践中摸索前进。

当时,“麒麟”深陷质疑声中,推广应用十分困难。“别人不用,我们自己先用。”从2011年开始,谭郁松带领团队成员,挨个给国防科技大学学员做工作,逐一帮助他们在电脑上安装系统。一圈儿下来,超过3万名学员的电脑上安装了“麒麟”系统。系统适配了超过300多款笔记本终端及外接设备,为后续大规模推广积累了丰富的经验。

经过反复推广、试用、验证、升级,“麒麟”的用户数量不断攀升,连续多年成为活跃用户量最多的国产操作系统。

成为国内第一,只是第一步,要想赶超,必须争分夺秒。多年来,对于谭郁松及其团队成员来说,“5+2”“白+黑”已是常态。

在他们的努力下,如今“麒麟”操作系统已经成为我国安全等级最高、应用最广的国产操作系统,被成功应用于各类国防装备、重点信息系统上。

近年来,基于“飞腾”芯片、“麒麟”操作系统的服务器、台式机、一体机、笔记本等系列产品,已在一些领域得到规模化应用,为实现我军信息系统自主可控、构建安全可控的信息技术体系发挥了不可替代的重要作用。

来源:科技日报