在这一年里,咨询和评论机构对边缘计算可以说是不吝笔墨。其中IDC给出了一些精确描述性的信息:“边缘计算是微型数据中心的网状网络,在本地处理或存储关键数据,并将所有接收到的数据推送到中央数据中心或云存储库,其覆盖范围不到100平方英尺”,不仅定性圈定了边缘计算所处的位置,还定量给出了离数据发生地的距离数字;相对IDC这段充满术语的描述,Ganter的副总裁兼分析师Dave Russell的定义更加文艺范:“边缘计算就是现实与数字的交互之处”。
通常评测机构对技术发展看得更早一些,而评判一个技术趋势是否正在成为大潮,不妨去观察业界厂商是否真正开始有所举措。而当我们深入探究,令人惊讶地发现产业链上的头部厂商们几乎都有所动作,涉及厂商范围之广,以近年的一个流行词汇“从芯到云”正好可以描述这种情况。
芯片厂商的领头羊Intel在2018年2月份推出的Xeon D-2100系列处理器,基于最新的Skylake架构,明确指明了面向边缘计算和其他一些受限应用场景,这些场境对密度和能耗都更为敏感。ARM几乎同时推出了“Trillium”项目,包括一系列特别设计优化的处理器,提高边缘设备的机器学习、人工智能和目标检测能力。AMD也在18年推出了两款嵌入式处理器,分别是EPYC 3000以及Ryzen V1000,采用“ZEN架构”,依然是瞄准边缘计算。
系统厂商介入边缘计算大部分都是通过超融合产品,这类产品多针对缺乏IT技术支持的分布式边缘环境,在一个统一解决方案中提供多种功能,包括计算、存储和网络资源以及管理软件和其他功能的一体化集成。设计上注重密集度,低能耗和低成本且易于管理。例如惠普宣布接下来4年将在边缘计算领域投资40亿美元。该公司的Edgeline Converged Edge Systems系统正是一个面向边缘计算的拳头产品,目标客户是那些希望获得数据中心级计算能力,且通常在边远地区运营的工业合作伙伴。这个系统明确提出在不依赖于将数据发送到云或数据中心的情况下,为工业运营(比如石油钻井平台、工厂或铜矿)提供分析计算能力。
思科通过HyperFlex超融合系统来支持多种云和边缘环境,这个系统集合了之前的统一计算系统(UCS)、Nexus网络交换机以及去年该公司收购的Springpath的软件,强调了敏捷性和适应能力。
VMware是另一家高调宣布支持边缘计算的公司,它主要是基于自己现有的技术,比如vSAN超融合存储,vSphere和VMware的Pulse IoT Center,Pulse IoT Center为边缘系统和网关提供管理、监控和安全,以及传感器等连接设备。在今年上半年的MWC全球移动通信大会发布了一系列三个边缘计算解决方案,其中的首要方案正在努力将超融合基础设施(HCI)引入边缘位置,将使用VMware Pulse IoT Center和HCI工具,在边缘对由物联网设备收集的传感器数据进行实时分析。
老牌的互联网和云厂商也都令人惊讶的大力推动边缘计算,当然首先是云端能力向编译辐射。例如AWS推出的 Greengrass服务将AWS扩展到设备上,这样它们就可以“在本地处理它们所生成的数据,同时仍然可以使用云来进行管理、数据分析和持久的存储”。 而微软在这一领域计划在未来4年内大幅投入,在边缘计算,物联网领域将投入50亿美元。同时他们已经发布了Azure IoT Edge解决方案,“将云分析扩展到边缘设备”,支持离线使用。希望聚焦于边缘的人工智能应用。谷歌软件硬件同步进行,包括硬件芯片Edge TPU和软件堆栈Cloud IoT Edge。谷歌表示,“Cloud IoT Edge将谷歌云强大的数据处理和机器学习功能扩展到数十亿台边缘设备,例如机器人手臂、风力涡轮机和石油钻井平台,如此它们就能够就近对终端设备的大量传感器返回的数据进行实时操作,并在本地直接进行结果预测。
边缘计算把原本打算在云中心进行的存储、数据处理/预处理、简单分析工作分担给边缘节点去做,这种方式,一方面能够有效帮助云中心缓解压力,同时提高系统的容错能力,在部分节点出现异常的时候仍保证其他部分功能可以正常使用,不再“牵一发而动全身”。另一方面能够提高响应用户的速度,在一些关键应用上提供更好的用户体验。
边缘计算和云计算在某种视角上看有点像跷跷板的两端,一头是集中,一头是分布。云计算进入主流视野已经有10年以上了,从本质上看还是大集中——将计算存储能力都集中到云端统一处理,用户或者终端能做的事只剩下连上去使用。而边缘计算的主要思路还是把工作切分并分布出去,能够完成工作的部件或子系统直接放在网络的边缘,就近处理。实在无法就地完成的工作任务再拉回云端统一处理。使用边缘计算的系统设计的一个核心思想在于让计算靠近数据;如果以物联网应用为例,大量的物联网设备在把数据传输上传到云端之前,会经过一个由一定数量的边缘节点组成的边缘层。这些边缘节点具有一定的数据存储能力、计算能力和应用分析能力,会把位于边缘局域网当中的设备信息经过筛选过滤、分析汇总之后再经由广域网交给云中心处理。而大量只需要在设备之间通信即可完成的工作,就不需要再传输给云中心,只需要在边缘层上处理即可。
为何我们需要边缘计算?美国前总统克林顿,在1992年美国总统大选时曾有一句名言——“笨蛋,根本问题是经济!” 有人认为他是因为这句话战胜对手老布什而当选,可能有点夸大,但他的确一针见血找到了根本问题所在。在这里我也想引用这个句式,“是的,根本问题是网络”。云计算之后再提边缘计算的根本原因剖析到底还是网络,之所以云计算无法全盘通吃所有的IT系统,网络带宽的限制,特别是网络时延的难以消除,是横亘在前的巨大鸿沟。并非所有的应用都是所谓“云原生”,大量的应用系统仍然分散部署在各处,离云端数据中心很远。尤其是一些需要实时响应的系统,例如自动驾驶,不可能每一个操作都等待千里之外的云端数据中心发回的反馈,数据一个来回加上处理的时间,车子可能就已经错过路口或发生事故了。
而边缘计算的出现能够大幅减少到云端的数据传输量,减少了网络限制,而最关键的是提供了更好的实时响应能力。当然衍生开来阐述的话,由此还降低了时间成本和大量数据传输和存储的资金成本。
超融合现状
回到HCI超融合,这是一个已经出现了3年多的技术,经过这些年的发展,从Gartner的技术成熟曲线上看,超融合技术明显已经越过了最受关注的顶点,将在2-5年内进入平稳期。
从我看来,而今年最大的新消息是超融合技术分家,原本的定义里是“集成系统:超融合(integrated systems:hyperconvergence)”分成两个技术名词
超融合系统HCIS(hyperconverged integrated systems)
超融合基础设施HCI( hyperconverged infrastructure)。
主要区别在于产品技术形态,HCIS是以硬件为中心,使用专有的优化硬件,而HCI则以软件为中心,硬件上采用通用设备。大部分的厂商还都是两者兼顾的,既有HCIS也有HCI产品,例如Nutanix/Dell EMC/HPE(SimpliVity)/Pivot3/华为/H3C/等。而只有HCI(软件)的代表厂商相对少一些,例如VMware /Microsoft/ Stratoscale/SmartX。(我猜想这个拆分和老牌重量级软件厂商MicroSoft的加入会不会有关系?不得而知。)
超融合发展已经有一些时间,曾经有些争议和关注点现在业界也有了共识,例如数据路径引发的关于真伪超融合的争议,超融合最核心的和关键的难点技术在于SDS软件定义存储实现的优劣等等,甚至关于产品形态也出现了很多新东西。
最初关于产品的标准化业界是一致认可的,所有的节点硬件都是一个统一规格,2U或1U的X68兼容硬件,多个多核CPU,大内存,SSD+HDD的内置存储。但到三年后的今天,除了标准化设备,渐渐很多厂商支持不同定位的节点,比如偏计算的节点和偏存储的节点。
例如提供更大容量的“存储型超融合产品”,单台设备提供0.5PB~1PB左右的容量,满足一些海量数据要求的应用场合。再有基于ARM架构的超融合产品,在基本体系架构上有别于X86的硬件,然而实现的功能相差无几,在能耗和计算核心提供数量上更有优势。再就是精简型的超融合产品,特殊定制更小体积,无风扇等机械部件,抗震可靠,甚至有额外增添的GPS定位等特殊功能。当然还有不少面向AI机器学习的超融合产品,支持GPU,TPU和TensorFlow/Caffe等AI典型计算框架的产品
而处于2018年底的今天,我们不仅要看现状,超融合的未来发展方向更加值得关注。有典型的几个发展方向如下:
首当其冲的是超融合和云的相爱相杀,我们看到一些厂商就直接以超融合直面竞争私有云,甚至在项目里也不做严格区分,但技术上讲,更适合的未来应该是混合云的场景;如何实现更强大的功能,如何适配于多云环境,这是超融合下一步发展的重要方向。
另一个发展方向是处于风口浪尖AIOps,人工智能化运维。超融合基础架构上搭载的系统和工作负载越来越复杂,很多关键应用也加载上来,对复杂系统的适应能力和本身的高可靠甚至是自愈能力都显得更加重要,如何导入AI帮助更好的运维,以达成前述的能力,必然成为超融合系统是否能进入大型部署规模的一个关键点。
最后一个非常值得关注的方向无疑是边缘计算,精简型的超融合系统是非常适配的选择。我们接下来将重点讨论。
边缘计算呼唤超融合
在前面我们已经讨论了边缘计算兴起的根本原因,当由于网络限制和巨大数量导致的计算处理能力前移,我们会发现最迫切的需求是处理能力和存储资源,而且需求量很大,当然还需要数据分析工具,将软件和数据推送到边缘的工具,以及跨边缘与集中式云联合起来的方法,甚至需要在边缘本身处的机器学习。
这一切的一切都清晰地指出,边缘需要一些更加强大的基础架构能力。
我们认为,超融合适合边缘计算有以下三个理由
满足新边缘节点的定位
边缘计算让计算靠近数据,数据处理应用,分析应用软件都将部署到边缘,超融合可以为边缘节点提供更强大的性能和存储空间。
HCI完全虚拟化的广泛兼容应用软件,拥有合理存储能力、计算能力和弹性扩展能力,可以满足更多系统搭载的需求。
满足边缘计算的受限环境
边缘的工作环境条件低于IDC,空间,能耗,维护便利性都不乐观。
精简型HCI更小尺寸,占用空间小,功耗更低,散热要求更低,模块化快速部署能力,远程管理能力。
大幅提升中的性价比
边缘计算规模大,大批量的采购场景中,性价比必须考虑
HCI的硬件正变得更强劲,价格同时也在下降
同时,超融合架构相比传统系统,是一个“预处理”好的模块化基础架构,省掉很多逐个项目设计部署的工作,而以最适合应用程序的标准化形式创建一致的范例和环境来运行工作负载。如今许多边缘工作负载都在Linux或VM上运行,基本可以无缝迁移到超融合基础架构。
而关于超融合产品在边缘计算里出现的形态,目前看和普通的超融合产品还是有所区别的。目前超融合集中部署的情况还是比较多,很多都部署在大型企业用户IDC或者云服务商IDC里。而针对边缘的使用场景,更合理的形态是精简加固型硬件平台,具有小尺寸,低能耗,高可维护性和安全性的特点,同时还具有其他附加特性,如GPS/加密/自毁等标准产品上不会出现的功能。同时它必须具有完整系统的兼容性,具有相对完整的OS平台,能够搭载大多数的基础数据分析平台。
典型应用场景
最后我们来看一些实际出现的行业应用,在边缘计算的很多场景都可以部署超融合,例如能源行业的石油钻井平台,安防监控行业的人脸识别比对,远洋货轮的综合系统和各子系统,环保行业的水文信息监测,气象行业的遥感云图,交通行业的无人驾驶,大型客机机载系统和轨道交通的车载各类系统。
我们以火车的车轮平衡系统的工况监控系统为例,已经部署下去的大量传感器能够不停收集数据,如果工程师想要了解最近三个月传动系统,火车车轮和刹车系统运行得怎么样,最近工况如何,未来两周内是否需要维修或者替换,他就得使用历史累计的传感器数据,利用专业分析预测软件来评估相关零部件是否需要维修。
现在数据有了,而在何处进行后续处理分析就是一个问题?这种情况下,使用超融合的架构在边缘完成数据处理,就是一个非常适合的方案。短期分析可以就地进行并很快返回,而避免了每次从不同地点把大量采样数据完全返回到一个千里之外的云端数据中心处理,并等待返回结果。虽然这一应用场景并不要求秒级或是分钟级响应,但系统仍然需要在一个限定的时间窗口(例如8小时/12小时/24小时)计算完成并做出相应反馈,这其实对计算还是有实时性的刚性需求。
使用边缘计算超融合的方案,大数据的分析过程可以在给定的时间窗口内实现,精简加固型的超融合系统也能够适应部署的糟糕环境。
其实这一类的物联网应用,感应器产生数据量其实非常巨大,例如庞巴迪的C系列飞机,在12小时的飞行过程中会产生844TB的数据量。
如果不能就近处理,通常这样的原始数据要么丢弃,要么得等待缓慢的数据传输转移的过程和占用云端大量的存储计算资源以完成相关分析。
如果最终的应用是一个大数据的分析,部署到边缘的超融合节点至少可以完成第一步的数据清洗,节省大量的低信息含量的原始数据传输成本。
总结一下,这类系统有几个典型的需求特征如下
无须分秒必争,但确定时间窗口
数据种类多,数量大。
算法不复杂,非计算密集型
利用精简型超融合搭建边缘计算平台可以提供几个明显优势点
更高可靠性硬件设备
更强数据存储能力,保存更多原始数据
全虚拟化计算能力,部署分析应用,在给定时间点即可完成短期分析,不需完全返回中央云
Gartner预测到2022年,所有企业将有75%全面展开边缘计算战略,而到2018年底,这个比例还不到10%。在未来三年边缘计算大行其道的时刻,我们相信超融合基础架构能够帮助大家应对在这一全新领域要解决的许多新挑战,一些刚性需求诸如小尺寸,低能耗,极简部署,易于管理和维护性等能够得到满足,有力支持边缘计算发展。