简体中文|English

我国怎么赢得新一轮超算比赛?要害在向数据密布型超算魂不附体

出处:bob体育平台网页版发布日期:2021-10-30 04:27:42 浏览次数:1

  各国跃跃欲试预备多年的“E级超算”(每秒超越一百亿亿次浮点运算),都将会集在2021-2022年方案完结布置。

  你或许还记得“威风·太湖之光”这个姓名,我国这台超算在2016年登上国际排名榜首。

  仅仅两年后,美国的极点(Summit)超算就迎头赶上,用每秒20亿亿次浮点运算的峰值速度超越威风的每秒12.5亿亿次。

  再过两年,日本的富岳(Fugaku)以每秒50亿亿次(0.5E)的峰值速度再创纪录。

  方案本年就要布置的Frontier,峰值速度估计1.5E;2022年Aurora随后跟上,方针速度1E;2023年还有一台El Capitan,开始方案1.5E但建造过程中添加到了2E。

  这还仅仅美国政府部门主导的项目,假如算上企业,特斯拉在建的Dojo超算方针速度也是1E。

  银河三号、威风E级和曙光E级的原型机都在2018-2019年研制成功,现在正紧锣密鼓地建造完整体。

  此外,日本、俄罗斯也都启动了各自的E级机方案,欧盟在新建和改造超算上也投入了80亿欧元。

  谁能首先具有E级机成为大国超算比赛的下一个要害点,国际超算排行榜“TOP500”每年6月和11月发布两次,谁会赢下这一盘或许很快就会揭晓。

  超级核算机之所以叫“超级”,是因为强壮的算力能把不或许变为或许,把不有用变为有用。

  曩昔因为算力不行只能对天气现象做出含糊的定位,那时候常常听到电视里的说法是“局部地区有雨”,到现在手机上都能随时检查精准的未来两小时降雨云图。

  算力的开展把天气预报精确率从曩昔的21.8%进步到了现在的90%,日常情况下天气预报禁绝好像无关紧要,但近年来极点天气现象频发,精确猜测飓风暴雨但是能解救许多生命。

  相同与解救生命相关的还有生物医药范畴,算力这些年的开展把基因测序的时长从13年缩短到1天,新药研制判定的周期从5000天缩短到了100天。

  此外,在天体物理、地震猜测、石油勘探、国防军事、新资料发现等范畴也都需求强壮的算力支撑。

  另一方面,新闻中总能听到的“工业数字化转型”,其实沉淀说算力现已深化到经济工作和人们日子的方方面面。

  本年宝马与英伟达协作,把整个出产流程在数字国际中重建,经过仿真模仿进行优化,把出产功率进步了30%。

  这项技能叫“数字孪生”,也沉淀把实际国际发生的前史工作数据、传感器搜集数据、统计数据等通通搬到数字国际里去,尽或许复原一个实际国际的副本。

  据威望商场研讨公司IDC猜测,到2022年75%的企业将把智能自动化嵌入到技能和流程开发中。2024年,AI将成为一切企业不行或缺的组成部分。

  从实际国际镜像到数字国际的数据将会迸发式增加,乃至可以说未来智能工业的工作速率取决于数据剖析的速率。

  随工业数字化带来的,是数据构成上的改变。依据IDC猜测,到2025年80%的数据将对错结构化数据。

  非结构化数据很好了解,像涣散在互联网上的文章、文档、图片、音频视频等,只需不是用行和列组成的二维表结构表达的都算非结构化数据。

  中科院院士陈国良以为,假如说数据是数字国际的新石油,那么非结构化数据更难处理,就像石油中最难发掘的页岩油。

  处理杂乱的非结构化数据就需求新技能,这种新技能叫做面向海量数据603138股吧)的高功能数据剖析(HPDA,High Perfermance Data Analytics)。

  这样的超算也可以称为数据密布型超算,也沉淀用超算的并行处理才干工作强壮的AI算法,从海量数据中提取出价值。

  依据全球高功能核算商场研讨机构Hyperion Research猜测,未来数据密布型超算商场份额会数倍于传统超算的增加快率。

  这个问题其实应该反过来看,正是运用场景对算力需求的改变驱动着超算朝数据密布化方向开展。

  一台超算从规划到建造再到投入运用需求好几年,所以开始就要面向未来或许的运用来规划。

  比方生物医药范畴,本年发生的一件大事是DeepMind开源了全新的蛋白质结构猜测模型AlphaFold2,并把人类98.5%的蛋白质结构全都被猜测了一遍。

  而在这之前科学家们数十年的尽力,只覆盖了人类蛋白质序列中17%的氨基酸残基。

  在基因测序上,最早的人类基因组方案耗资30亿美元历时13年总算在2003年完结。

  到现在面向个人顾客的全基因组测序服务只需求几小时,价格也降至100美元。

  这让2007年仅为800万美元的全球基因测序商场规划,有望在2021年到达350亿美元。

  这两个方向上的开展为加快新药研制供给了根底,再往后开展就需求将蛋白质结构数据、基因图谱数据结合上AI剖析的文献、临床档案等非结构化数据进行化合物挑选、开掘药物靶点。

  正需求高精度科学核算算力和精度需求不高但数据量巨大的AI推理、练习的算力相结合,才干真实做到缩短新药研制周期,下降药物研制本钱。

  再比方脑科学范畴,对神经体系的研讨除了医学上的效果,也是对大脑认知原理的探究,对类脑人工智能技能和相关器材的研制也有启示含义。

  人脑大约有1000亿个神经元,把神经元之间的映射全存成数据,需求的容量要到达EB级(一EB等于一百万TB)。

  在这么大规划数据上做检索呼应时刻高达100小时,假如脑科学想获得打破性开展,也需求未来超算在数据存储架构上完结打破。

  依据美国兰德公司的研讨,自动驾驭算法想要到达人类司机水平至少需求累计177亿公里的驾驭数据来完善算法。

  假如装备一支100辆自动驾驭测试车的车队,每天24小时不停歇路测,均匀时速40公里来核算,需求500多年的时刻才干完结方针银河。

  先不提到达人类水平这么远的事,依照现在最受认可的SAE自动驾驭分级规范,到达L3把守也要2000万公里路测进程,对应的数据体量到达1-2EB。

  数据导入时需求的是S3/NFS格局,数据预处理需求HDFS格局,AI练习又需求NFS格局,后边还有仿真、模型验证….

  结果是,数据转化格局和来回复制的时刻比处理剖析时刻还多一倍,这要求未来的数据密布型超算还要处理数据协议互通的问题。‘

  从微观的分子化合物、神经细胞到中观的车辆、路途,再把视角拉大,研讨微观的地球、国际相同需求数据密布型超算。

  动力勘探、气候猜测、卫星遥感、地理观测的数据贮存规划也在几十到几百PB,依据各自的特征还分别对超算的传输速度、是否需求AI接口、数据办理等问题提出不同的要求。

  各个大国都想抢先于人去发掘这块新土壤,由此也就发生了当下超算竞赛日趋白热化的局势。

  由我国核算机学会高功能核算专业委员会、国内各高校和超算中心、华为联合编写的《数据密布型超算技能白皮书》现已给出了一些切实可行的主张。

  《白皮书》以为,想要打赢这场算力上的“军备赛”,眼下咱们应当从超算架构、网络传输、能耗等方面下手。

  现在的超算中心是把CPU、GPU、FPGA等硬件结合,让不同的核算单元来担任不同的核算使命,然后进步核算速度和处理才干。

  但随之而来也会发生一个问题,沉淀资源、数据、运用上的孤岛现象,导致资源重复建造、搁置,形成能耗居高不下的问题。

  所以,未来的超算中心,要把本来“散兵作战”的核算单元,再“大一统”起来。

  让它们在发挥各自强项、快速完结使命的一起,还能遵从调遣,最大化运用核算资源,并尽或许完结更多不同的使命。

  详细来看,沉淀要做到三个层面的一致:硬件上一致资源办理、一致数据存储;软件上一致资源调度。

  数据密布型超算以数据为中心,所以在核算单元之外,存储体系对超算工作速度也有巨大影响。

  HPDA把HPC、大数据、AI交融,使得它的核算方法会和传统超算有所不同。

  以发现新资料来举例,传统超算经过HPC仿真核算来发现新资料,HPDA则会用机器学习来完成,触及AI模型的练习和推理。

  详细工作过程中,很多核算时刻都会耗费在等候数据从存储体系中读出或写入上。

  假如沿袭传统超算的存储体系,许多贵重的核算节点都会处于闲暇状况,形成资源运用缺乏的问题。

  也沉淀让一切核算节点都同享一个存储,而且让不同数据(文档、表格、图片等)之间可以互通、互访。

  这样一来,超算履行不同使命时,核算节点从这个大的存储底座中找到需求的数据即可。

  在此根底上,还要让数据可以依照需求自在活动,让热数据、温数据、冷数据可以智能分级。

  也沉淀将高价值的文件放置在高可用性、高功能的存储设备上,低价值的文件放置在本钱较低的、功能和可用性规范较低的设备上。

  在我国,存力(存储容量PB)与算力(核算算力PFLOSPS)的份额为1:2,相应的出资份额为1:3。这两个数据,美国现已到达1:1。

  假如依照现在的超算中心建造形式推广,几年后咱们势必会出现存储量缺少的危机。所以接下来,咱们还有注重存力上的规划。

  跟着处理数据越来越多、品种更为丰厚,传输上的高带宽、高IOPS和低时延需求得到很好保证。

  资料上,光子集成产品在尺度、功耗、本钱、可靠性方面优势显着,是未来光器材干流开展方向。

  超算中心中,往往有核算网络、数据网络、存储网络、监控网络等多套网络,在构建、运维、功耗上都会有很高的本钱。

  因而,怎么让它们之间交融、下降本钱,是未来数据密布型超算中心需求考虑的问题。

  跟着芯片、体系、光器材等组成在功能上的不断提高,超算对能耗的需求在日益增大。

  比方在体系层面,当时100P体系的能耗大约在20MW左右,单机柜能耗到达100KW,体系能效比大约为数十GFlops/W。

  假如在节能上一直没有革命性的新技能出现,未来E级以上体系的这些方针都将变得难以承受。

  PUE值(Power Usage Effectiveness,电源运用功率)是国际上比较通行的数据中心电力运用功率的衡量方针。

  我国国家超级核算无锡中心在建造之初的PUE值为1.3左右,如本年均匀PUE值降至1.22。

  而SSD闪存盘组成的存储体系典型功耗仅约5.3W/TB,可下降约50%能耗。

  因而,数据密布型超算中心要求全闪存存储占比50%,来极大促进超算中心的绿色开展。

  如此高端的设备、先进的体系、强壮的算力,你或许会觉得超算离咱们遥不行及。

  但事实上,超算的实质仍是要处理更多难题,不仅是科研方面,还有一般日子范畴的。

  只需容器化技能提早将超算工作环境封装好,完成运用和底层硬件的解耦,即便是不明白专业核算机的一般企业用户也能运用HPC。

  要针对职业界普遍存在的问题大力开发,为用户供给简略、易懂的可视化操作界面。

  一起要处理新架构带来的开发问的问题。异构编程架构应该根据现有的经典并发模型,针对程序并行和数据并行,为用户供给方便快捷的东西。

  此外,还要建立智能化办理运维渠道,用AI等技能让IT设备变得越来越智能。

  我国应赶快拟定清晰的开展方针和规划、出台相关辅导定见,赶快拟定数据密布型超算测评规范,并大力推动产学研协作。

  现在我国超算开展正式迈入迸发期,在本年国际500强超级核算机名单中,我国超算中心布置量居国际榜首。

  在数据密布型成为要点趋势、超算工业迎来新一轮迸发的今日,我国超算现已走出一条归于自己的路途了吗?

  本文系网易新闻?网易号特征内容鼓励方案签约账号【量子位】原创内容,未经账号授权,制止随意转载。

  量子位MEET2022智能未来大会定档11.30日,李开复博士、张亚勤教授、阿里巴巴副总裁贾扬清、IBM大中华区CTO谢东 等多位职业重要嘉宾承认参与大会并宣布主题讲演,等待再次为我们出现精彩内容!

  点击链接/图片,检查大会概况&报名参会吧~:MEET大会报名敞开 李开复张亚勤等产学研大咖邀你一起见证智能未来

返回列表
上一篇:把握药物研制规则 我国新药立异可打破西方神话..
下一篇:中药制药与新药开发教育部工程中心树立“智库”..