“云上超算”的愿景,让这家云公司抢先实现了

2017-09-15 10:38:00 作者:zhanggl 分类 : 比特网

  最初见到“超算平民化”的概念是在2009年《纽约时报》网络版刊登的一篇文章:

  “云计算的快速发展不仅对行业趋势产生了影响,甚至有望改变科研院所的研究方式。目前有多家科研机构都在尝试通过云计算来提供大量科研数据和超级计算机的运算能力,以便推动科研平民化的进程。”

  当时,云计算刚刚兴起,超级计算机开始大量采用标准化硬件架构,这两个趋势让HPC通过服务的形式来提供计算力的新模式成为可能。在当时看来,“云上超算”并不遥远,其所带来的“超算平民化”亦将带来超算发展的一场新的变革。

  在后续的这些年中,“超算平民化”的进程一直在持续,尤其随着互联网时代的来袭,超级计算机已经逐渐走出实验室,进入企业应用之中。在近年的中国TOP100榜单中,有超过半数的超算所从事的都是互联网应用——互联网服务、大数据应用、云计算、电子商务、视频服务等等。相比过去,超算这个主要用于科研机构的系统已经在“平民化”上迈进了一大步。

  然而,“云上超算”的愿景一直未实现,更未曾进入规模商用。其中一个主要原因在于,云是一个虚拟化环境,很多对计算力、I/O有着苛刻要求的HPC用户对此嗤之以鼻。另一个问题是,到底是应该将HPC云化,还是应当做云化的HPC?亦或者说,“云上超算”这个目标,是该由云计算厂商来实现,还是应该由超算厂商来实现?

  还好,现在已经有了答案。

  为何是阿里云

  9月12日,阿里云发布了弹性高性能计算平台E-HPC,这是中国首个公共云上的“HPC as a Service”产品。阿里云首先将HPC放到了云上,迈出了“云上超算”规模化商用的第一步。

  那么,对于“云上超算”这件讨论了很多年的事情,为何是阿里云迈开了第一步?

  原因有三,其一是需求驱动,其二是本钱足够,其三是基因传承。

  先看需求。

  在过去,高性能计算用户为了获得HPC集群计算能力,需要花费大量人力物力财力在服务器购买、运维、软件开发和软件许可上。这是一个庞大的系统工程,昂贵且周期漫长。

  当然,不是所有HPC用户都有自建HPC集群的实力,过去大多数情况是用户租用超算中心的计算资源,但中国对外开放的超算中心着实不多,其中有些已经投入使用多年,计算力不足,任务作业经常需要排队,HPC用户无法获得理想的计算效率和灵活性。

  所以,若能以云服务的模式来提供HPC的计算力,无疑能带给更多用户应用HPC的机会,大大拓宽HPC的应用范围,进一步推进HPC的平民化进程。

  再看本钱。

  在E-HPC发布当天,阿里云还发布了新的异构计算实例家族,涵盖GPU、FPGA在内等6款异构实例,这为“云上超算”的构建打下了雄厚的异构计算基础。此外,阿里云还具备丰富的弹性计算ECS资源、虚拟专用网VPC、高性能高可靠和横向扩展的NAS资源、HPC软件栈等资源。综合来看,对于构建“云上超算”,阿里云已经有了足够的技术和产品资本。

  还有基因。

  阿里云曾经在多个场合、不止一次的强调“使能”这个词。就如阿里云近年来不断升级ECS家族,其目标是为了“使能”更多的企业客户,让客户和阿里云ECS一同成长壮大。而阿里云推出弹性高性能计算平台E-HPC,其目的是降低HPC应用门槛,让更多的用户能够应用HPC,和阿里云的“使能”基因一脉相承。

  对于E-HPC,阿里云资深专家何万青博士做了一个形象的比喻:如果把传统超算中心比作“珠穆朗玛峰”,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,是高性能计算的“青藏高原”。“我们既需要‘珠穆朗玛峰’,也要让更多的人在‘青藏高原’上做创新。”

  所以,阿里云在首先推出“云上超算”这件事儿上,可谓万事俱备,东风亦至。

  轻轻一点,生成“云上超算”

  来看看阿里云E-HPC的一些具体情况。

  据何万青博士介绍,E-HPC基于阿里云异构计算平台在高性能虚拟化、并行计算、低延迟网络和HPC软件栈等方面的特性,帮助生命科学,气象预报,石油勘探,工业设计和航空航天等领域的客户,快速获得高性能计算集群计算能力、调度能力和软件能力,按需组建自己的“云上超算中心”,并可实现一键部署和弹性伸缩。

  E-HPC有着四大特点:便捷、互通、弹性、安全

  在发布会现场,何万青博士现场演示了“云上超算”的搭建过程——只需三步:硬件配置、软件配置、基础配置,即可生成一套用户专属的HPC集群,时间不过几分钟。“你不用了解超级计算机是怎么设计的,只要点几下鼠标,然后得到的就是超级计算机。”

  用户从E-HPC不仅能够获得并行计算能力,还能获得常用的开发工具、性能库和常用的HPC应用。如gcc、g++、gfortran等基础软件,NetCDF、MPICH、OopenMPI、OpenBLAS等高性能运行时库,以及计算化学、气候气象、生命科学、材料力学、分子动力学等领域行业软件,用户登录E-HPC直接可用。

  何万青博士强调,E-HPC本身作为一个PaaS平台,所有的资源随着阿里云的产品丰富是不断的往上迭代的,E-HPC会随着产品的不断丰富而进化。未来阿里云会联合行业合作伙伴打造行业解决方案交付给用户,让E-HPC实现平台化,不断扩大“云上超算”的应用生态。

  在弹性方面,E-HPC用户不仅可以根据需求自动增减节点,还能将本地HPC集群通过虚拟局域网专线接入E-HPC,通过一种混合云的方式来扩充计算能力,这种灵活性是传统HPC集群无法实现的。

  由此可见,通过阿里云提供的“云上超算”,企业就能快速获得高性能计算集群能力、高性能计算调度能力和软件能力,按需组建自己的“云上超算中心”,再也不用一次性巨额资金投入,从而大幅降低计算成本,同时获得云服务的弹性和灵活度,“鱼”和“熊掌”可兼得。

  而在安全方面,E-HPC采用了多项安全设计来保证安全访问和数据可靠性。例如,E-HPC采用了安全组访问控制,并提供了VPC专有网络,通过管控空间和用户空间分离,保证多租户间数据安全隔离;同时E-HPC的NAS平台提供了10个9的数据可靠性。

  回到最初的话题,降低超算应用门槛、实现“超算平民化”是整个HPC产业的共同愿景,云计算技术的进步让这个愿景有了成为现实的可能;而阿里云首先推出“云上超算”E-HPC,又将超算平民化的愿景拉近了一大步。

  10月12日,E-HPC将在全球同步上线,未来整个HPC产业是否会出现新的变局?非常值得期待。

  异构计算能力再升级

  阿里云新推出E-HPC、构建“云上超算”,实际上是阿里云异构计算在HPC领域的一次全新实践。9月12日,除了发布E-HPC,阿里云还发布了新一代GPU实例GN5i和新一代FPGA计算实例F2。

  至此,阿里云异构计算家族已经包括GPU、FPGA在内的6款异构实例,已经能够满足图形渲染、人工智能和高性能计算等领域的复杂计算需求,阿里云异构计算能力再度升级。

  如图所示,如今阿里云异构计算家族已经全面覆盖GPU和FPGA实例。GPU方面包括AMDNVIDIA实例,FPGA方面包含Intel和赛灵思实例,6款异构计算实例能够全面覆盖图形图像、机器学习、科学计算等异构计算应用场景。

  GA1:今年1月推出,专为图形渲染计算而设计的实例,提供最高4颗AMD S7150 GPU的配置,最高达到15TFLOPS浮点计算能力,其亮点在于兼容OpenGL DirectX等主流图形渲染API,同时支持GPU分片虚拟化,从而达到成本和计算力的平衡。在大部分视觉渲染计算中,GA1能够将成本降低 50%。

  GN4:也是在今年1月推出的GPU异构计算实例。单实例最大提供了2颗 NVIDIA M40 GPU, 达到14 TFLOPS 单精度浮点运算处理能力。适用于机器学习、流体力学计算、基因组学、地震分析、分子建模、金融计算以及其他需要强大并行浮点计算能力的服务器端业务场景。

  GN5:今年6月推出,面向深度学习和高性能计算的实例,具有强大计算力。最高支持8颗NVIDIA P100 GPU,浮点运算最高75TFLOPS。相比上一代的异构实例GN4,GN5的双精度浮点性能提升了94倍(适用于科学计算),单精度浮点性能提升5.4倍(适用于深度学习),兼容TensorFlow、Caffe等主流深度学习框架。

  GN5i:阿里云新发布的异构实例,主要适用于深度学习的在线推理(Inference)阶段。配置NVIDIA P4 GPU,INT8 整型计算能⼒达45 TFLOPS,可一键部署TensorFlow等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务。人工智能产业用户可通过GN5i搭建微秒级响应的AI服务,在线服务成本减少50%以上。

  除了GPU实例,阿里云也将目光投向了不断升温的FPGA。阿里云高级技术专家龙欣表示,GPU本身的数据位宽是固定的,相比GPU,FPGA更适合非标数据位宽的深度学习、金融分析、基因匹配、物联网数据库等领域。FPGA就像专用计算中的多面手,堪称搭建任意数字器件的“云上积木”。

  F1:是今年1月阿里云推出的首款FPGA异构计算实例,现已全面升级。采用Intel A10芯片,单块FPGA配有16GB DDR4内存,专用 PCI-Express x8 接口,具有近1518个DSP引擎,近115万个逻辑元素,单精度浮点计算最1.5TFLOPS、INT8整数运算最高4.8TOPS。升级后的F1实例提供了开发组件的全面支持,增强了安全保护机制,并从原来的只能支持RTL的开发升级为支持RLT和openCL的开发。

  F2:新发布的FPGA异构计算实例,基于Xilinx(赛灵思)硬件可编程芯片打造,具有145万个逻辑单元,5520个DSP引擎,16GB 4通道内存,单精度浮点计算最高1.5TFLOPS,INT8整数运算最高5.25TOPS。F2实例可在云上实现FPGA加速业务的快速研发、安全分发、一键部署和弹性伸缩,为人工智能产业提供加速服务,在特定场景下的处理效率比CPU高30倍。

  相对GPU,FPGA开发有着更高的门槛。为简化用户使用FPGA、分发FPGA、部署FPGA、运维FPGA的业务流程,阿里云还推出了FPGA镜像市场,在云上提供了在线的开发模拟调试的环境,厂商和用户可以在市场上分发、部署定制化加速算法,阿里云的安全能力为镜像保驾护航。目前,已有数十家厂商正在进驻。“这是阿里云构建FPGA生态的重要一环”,龙欣表示。

  凭借这六款异构计算实例,阿里云已经能够覆盖大部分的异构计算场景,但对于云上的异构计算服务来说,仅有丰富的实例还不够。阿里云异构计算负责人张献涛表示,要在云上提供异构计算服务,除了异构计算实例外,业务永续、高性能、性价比、弹性,缺一不可。

  从去年开始,阿里云整个基础设施层面全面升级,IDC可以达到5个9的可用性,让客户业务永续;为支持客户业务的全球化的部署,阿里云在全球部署了一张高可用的骨干网,通过多线的BGB接入保障网络不中断,同时让客户的业务全球互联互通。在软件服务层,阿里云网络虚拟化也已经升级到第二代,适应了25Gb网络,能够支撑阿里云业务在网络方面获得极高的PPS和带宽。

  张献涛表示,阿里云在海外已经部署了多个数据中心,美国、澳洲、德国、新加坡,异构计算服务也随着IDC的全球化部署覆盖到全球;在国内,华为、华南、华东、香港数据中心也做了异构计算服务的部署,阿里云希望从计算服务、引擎、平台、服务、场景解决方案、生态等方面,全方位使能用户。

  打开未来的大门

  异构计算与高性能计算,是打开未来的两把钥匙。

  第四次工业革命正在到来,这次革命将以大数据为核心,以人工智能为代表;而在即将到来的智能社会,高性能计算与人类生活的关系也将更加密切,从天气气象、生物制药、基因工程、航空航天等科研领域到新兴的深度学习和人工智能,高性能计算都将扮演关键角色。

  不管是人工智能,还是高性能计算,都需要强大的计算力作为支撑,而异构计算则是提升计算力最为可行的途径。不难预见,未来异构计算将覆盖更多的应用和更多的行业,也将有越来越多的用户需要异构计算——这势必将掀起一轮异构计算平民化的新浪潮,而云计算则是成就这次变革的基石。

  打造全面的云上异构计算服务、首推“云上超算”E-HPC,阿里云可谓是已经找到了这两把通往未来的钥匙。

* 本文为ChinaByte比特网原创内容,版权所有,转载请注明出处和原文链接,未经授权请勿用于商业用途。

最近更新
科普

科普图集
互联网+升级到智能+,开启万物智联新时代

互联网+升级到智能+,开启万物智联新时代>>详情

中国互联网消费市场,发展潜力一片大好

中国互联网消费市场,发展潜力一片大好>>详情

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。