您当前的位置:华人财经网 > 要闻 > 正文

书生云用超融合技术打造EB级云平台

2017-05-15 12:51:35  阅读:16
   2017 CCS企业云计算高峰论坛(ccs.d1net.com)于近日在北京新世纪日航饭店盛大举行,这是国内面向政企客户的最重要的一个云计算会展。CCS企业云计算高峰论坛的主题为云计算的生态链。书生云在会上谈到了超融合技术在EB级云平台上的应用。以下为专访实录。

  主持人:接下来的发言来自书生云,发言的领域是超融合,超融合是一个新兴的领域,在大家都还在了解和熟悉超融合的时候,我想大家可能都被前两周这个领域迄今最大的一个价值十亿元的单子给震到了。什么样的公司拿到了这个单?

  接下来,书生云首席体系结构技术官夏御杰将为我们带来:用超融合技术打造EB级云平台,大家掌声欢迎!

  夏御杰:各位好! 我是书生云的首席技术官,今天要分享的是我们最近在运行的一个项目,就是为浙江绍兴凤凰创新园打造一个1EB的数据中心,这个数据中心有什么特别之处,接下来跟各位分享。

  首先,1EB是一个什么概念? 整体来看1EB的数据中心,它实际上可以同时容纳200万个虚拟机或者是容器的计算运作能力。而存储容量上若以较常见的家庭的存储容量需求,它可以存储3000万个家庭的数据存储。同时每秒也可以执行数千万的交易服务。在系统与数据的可靠性方面,它能够保证这个系统全年不间断的运行,24小时的提供服务,而不会因为系统故障,无法服务客户的情况。

1.jpg

  书生云承建凤凰创新园EB级超融合数据中心签约仪式

  我们在建构1EB云的数据中心时,发现投入是非常巨大的,一般投入从十亿开始,甚至到数十亿的投入。所以,我们会发现建构一个1EB的云,除了相关的技术很重要,以及建构的架构很重要以外,建构成本与运维成本更是重要。

  谈到云数据中心的成本,我们来看成本包含哪几个部分?

  第一,时间成本,建构1EB云数据中心需要耗费很多的时间,很多的人力。我们有没有什么方法能够简化建构过程,让建构云能更容易,让建构云能更快速。

  第二,设备与系统的成本。我们在建构云数据中心的时候,若我们在架构上、设计上、硬件上选择使用很多企业级高端设备,也就是单点高可靠性的设备,这些高可靠性的设备虽然云数据中心建构的需求,但是设备的成本非常高,所以直接造成云的建构与运维成本严重提高。然而在云的建设与运维过程中,成本掌控是很重要的,这直接关系到客户的云成本。还有另一个常乎略的成本是我们采用企业级的设备,用的也是企业级的系统,所以在云的运营上面需要很多熟悉企业级设备与系统的专业人员 , 须要付出高昂服务费与培训费的专业人员 , 也直接增加了运维上的高成本。所以,从成本整体看来,中国如果在运维云方面存在这样一个成本问题,怎么跟国外像亚马逊这样大型的云数据公司在中国和全球市场竞争,我们面临的挑战是很大的。

  我们书生云在建立整个1EB云的数据中心上面有我们自己的方法。我们的方法简单来说就是减法。也就是把整个数据云的架构与设计层级尽可能的简化,这个简化除了是技术上的简化,也是运维上的简化,同时也是成本上的简化。

  简化的技术上有什么样的特点。

  首先,我们在简化的架构上,我们其实采取了分布式的架构。分布式的架构跟一般的分布式也有不同之处。 第二部分,我们采取超融合的设计,把建构云所需要的建全机制以机柜的方式来提供,并开机即用,并集群成云服务。这样的方式能够很快速的建立一个完整的云服务。第三,我们体会到客户的使用方便性,所以我们在整个数据中心建构管理方面采用超融合用户管理中心,这个管理中心只需要一般的运维人员就可以维运,不用特别找熟悉数据库的,或者是网络的专家,配合很多培训与认证才能开始运维,我们只需要懂IT的人就可以运维整个云数据中心。

  在架构上面,我们跟传统的数据中心有什么不同呢? 刚刚提到我们是一个超融合、分布式的数据中心架构。所以,它跟传统的数据中心一央样是个高可靠性的数据中心,甚至可以提供更高的可靠性。主因是用分布式的架构去做,在分布式的这样的基础上,我们也做了很多的优化,在架构上我们也做了很多的改变与简化。

  所以,过去我们依靠传统要靠商业的服务器,双控的架构,或者是垂直扩展集群的服务器来提高可靠度。我们现在是用所谓的分布式架构,设备故障完全不影响其可用与可靠性,并且基于共享存储架构的方式也能够达到传统企业级高端服务器可靠性。甚至超越 ,在经过验证的测试发现它的可靠性是传统企业级服务器的1000倍,而实际只增加20%的成本,比传统的企业级架构有很多成本优势。

  谈到超融合,为什么我们建构1EB的云数据中心需要用超融合?首先,考虑到超融合的方便性,超融合的方便性能够快速建构云数据中心。过去在建构数据中心的经验中,从部署服务器与存储,还有网络的建构,到整个系统的调试,以及各方面参数的调整与测式,包括应用和虚拟化各方面的整合,并建立集群进行服务。这个建构的过程,我们最快也需要6个月以上。正常的情况是需要一年的时间,甚至一年以上的时间来建构。

  使用超融合建构 , 能省去传统在布署、调适、优化的时间,将建构时间缩短为3个月内,大大减少了建构云的时间成本。

  第二,在建构1EB云数据中心的传统方式,我们会用很多不同厂商的设备,每个厂商的设备里面都有不同的应用,接口与管理方式,我们要如何整合这些厂商的产品,厂商的应用,因为每个厂商的方式都不一样。所以,在超融合的云管理设计上我们采取的方式是支持开源,同时可以用软件去定义设备。定义什么呢?第一,定义计算池,定义虚拟化的应用。第二,定义网络的应用。第三,定义存储池与相关的应用。也就是我们通过一个超融合技术与管理中心系统,已经把网络、计算、存储融合在一起,甚至系统布署上能够在线实时的部署,这样可以不受到硬件厂商,或者国外硬件厂商的技术或标准限制,我们能够自己定义我们网络管理,或定义存储,计算这方面故障迁移,故障处理的方式,这都是我们透过软件来定义与管理来提供云数据中心的服务与应用。

  所以,为了不让我们在建构云的时候我们受到这些生态链,或是供应商,厂商技术与标准方面的捆绑和限制,我们在超融合的管理技术方案还有系统技术方案采取开源方式,这也是国内少数几家愿意把技术源代码,架构开源出来的厂商。这样的理念主要是让客户在使用我们的系统,技术人员也能够完全掌握与处理运维需求,也能够在上面进行二次开发与应用开发来符合运维需求,同时在技术支持上也是开放性的。我们的客户有自己的运维与开发团队,他们可以利用我们开源的技术与方式来满足运维上的需求。

  第三,我们的超融合是基于商业化的架构设计,并不是完全依赖开源的架构去做的,而是把我们商业化超融合产品的设计与代码进行开源,所以这是一个反向运作。前一场演讲中京东云提到,国内有很多云厂商的产品与技术同质性很高,主要的原因是因为云厂商以开源为主来建构他们的云产品与云服务,所以技术与产品会大同小异。我们的做法不一样,我们是以商业化设计与开发为主,然后开源给开源的社区使用,这是我们在产品与技术上提供给开源的理念。

  第四,用户体验是一个很重要的环节,建构一个超大型的数据中心如何去管理,如何让它能够持续的运维,其实很重要。我们做了一个事情,就是我们在超融合的系统管理上做了很人性化,一个高用户体验的管理中心,这个管理中心的系统也是开源,让用户能够在这样的基础上能够开发自己的界面。我们也提供能管理运维的界面,这个界面让用户很容易,可以用触控的方式来管理,我们每台机柜上面有一个触控面板,可以很快速的检查设备与服务状态,或是透过一台笔电登入管理中心,不需要另外购买昂贵的专业设备或软件就可以控管数已千计,数以万计的服务器计算节点、存储跟网络。

  第五,超融合产品有一个特性,就是它在硬件方面使用的是标准硬件,这样做的目的是希望在建构超融合体柜的过程中能让客户参与并可以自己选择所要的配置,而不会因为硬件的捆绑造成客户的选择变得很受限制。所以我们采用了标准的硬件服务器、存储设备与网络设备等等来建构超融合数据云。

  如何发挥硬件的性能?其实是我们一直在努力的方向。我们从软件的架构来看,系统软件在硬件上面运作架构与性能,硬件从过去的十年来,我们看到机械磁盘,到现在的固态硬盘,从CPU计算能力、内存容量与性能,到现在已经将近有100倍的成长。可是在软件方面,如果我们仍然依赖开源的架构,就会发现软件架构与设计并没有很大的进步,因此我们采用商业化的做法,在软件上进行了重构,这个重构的概念就是我们如果以交通来看,软件有很多协议,有很多沟通的机制,甚至为了容灾,为了监控,为了管理做了非常多的控制。这个控制就很像一个主要的道路上我们设了很多红绿灯跟栅栏,并设置管理人员,指挥交通。可是我们知道尤其在北京这样的交通环境里面,越控制越堵车,管理愈严密性能越低。

  所以,软件设计与架构也是这样的情况,我们在看到开源社区里面,软件设计与框架,有些为了能够全面的控管这些服务做了很多很多控制的机制。我们的做法是反其道而行,我们打通软件与硬件的整合,比如利用RDMA,PCIe,又例如虚拟内存之间数据交换与控制,减少高速的IO间的复杂协议,我们通过这样的机制,我们在每个应用,每个系统,包括网络,计算,存储,我们都建构了所谓的高速公路。这样的高速公路是用软件的方式去建构的。也就是当我们进行服务运作的时候,我们其实排除掉很多中间所谓传统方式管理的环节,而用更先进的技术来进行这方面的管理。所以,它在监控、调试、调度、迁移的时候,它对于性能的影响是微乎其微的。这就是我们在超融合方面做了很多技术上的加强跟技术上的突破。

  讲到分布式架构,我想最有名的就是Google。Google在分布式架构,它建构了一个很完善的分布式机制。我们用的是更先进的超融合方式,它是将一个机柜作为一个数据中心重要的节点,所以每个机柜之间都是以分布式架构与集群去服务,我们做了很多的努力来加速与简化各节点之间的运行和数据交换方式,使整体运作性能能够更顺畅。

  在整个超融合里面,计算节点,包括网络与存储之间我们怎么去做这方面的简化跟架构上的改变呢?首先,在超融合的服务器上,存储跟计算节点融合外,我们采用SAS3为存储交换网络,这跟传统的分布式不太一样,传统的分布式它的架构是每个节点都会有自带的硬盘,或者是所谓的固态盘,也就是数据,在这个节点上,数据跟其它节点之间是独立的。如果是节点之间要做讯息的互换,或者讯息的交换,就要去走传统的TCP/IP这样的网络,或者走IB的这样一个网络架构。

  我们的做法是直接透过SAS3存储交换网络设计共享存储架构,这样的好处是SAS比对于TCP/IP是一个非常低延时、高带宽的方式。同时,SAS性能增长速度也是以倍数的性能在增长,我们过去从SAS 2.0 6G到现在的SAS3.0 12G,在短时间内已经在性能上翻了一倍,并且在成本与性价比上要比万兆网络或IB网络更有优势。

  同时,我们在存储网络基础上,又跟传统分布式存储采取不一样的技术与方式,传统分布式存储与计算因为透过网络交换,它的数据独立在各个节点上,所以在数据交换的过程中是采取副本的方式来保护数据,我们知道副本的方式保护数据,多一个副本对磁盘阵列空间来说存储空间就直接减一半。网路性能也因此增加一倍的负荷,如果我们用传统的分布式技术要提供高可靠数据保护方式,要达到5个9,甚至11个9这样的一个数据可靠性的要求,我们最少就要用三个副本。也就是说,整个数据中心的存储能力,因为我们运用了三个副本,总数据容量就直接变为原来的1/3。

  然而用我们超融合的架构去做,我们不再采取用副本的方式来保护数据,而我们是采取另外一种更好的方式来保护数据。这样的保护数据的方式,我们也可以提供高可用、高可靠11个9的要求,并且只使用了总容量的25%的冗余空间。这个冗余空间所带来的直接效果是匹配于三个副本这样的一个数据保护与可靠性的机制。这也是超融合存储架构上我们做的创新。

  这个创新还有一个特点,就是因它在磁盘的整体数量上比传统的架构要减少了将近2倍,甚至3倍,所以它在总体的设备成本上,与数据中心的节能上是很有优势的。因为各位都知道,硬盘成本在数据中心里面占比是很高的,同时也是最容易故障的设备,跟CPU与内存比较起来,硬盘相对来说是脆弱的。所以,我们在这方面透过先进的机制架构,能够更节省磁盘的使用,同时也降低了整个数据中心的成本与节能。

  关于我们采取SAS存储网络的架构,同时也能够提高整体的运作性能。这边我们做了一个比较,就是传统分布式的网络的方式,也就是友商常用的架构,它透过网络让存储跟计算节点之间透过TCP/IP的方式交换数据,和我们透过SAS3的方式,在性能上会有很大的不同。

  为了做到分布式的运作,我们SAS存储与计算节点之间,每个计算节点对接SAS盘阵都是全局性的,这个全局性的SAS对接能够保证每个超融合节点即使其中有几个节点在故障情况下,其它正常运行的超融合节点能够快速的接手故障节点的运作。因为每个节点都是能够接手控制或管理存储数据的。所以在整个路径上会非常快速,因为SAS协议没有那么多复杂的监管控制要求,在协议方面的运作路径非常短,所以读写速度非常快。如果是透过传统的TCP/IP网络运作,每次交换就需要多次CPU的介入与处理,这样就会会影响运作性能,所以采用我们超融合的架构与传统分布架构就有实质性的差异。

  所以,在我们超融合一体机的优势上面,整理了三个优势。第一个优势,我们虽然采取了分布式系统,并且我们分布式系统内部是利用软件架构减法技术与高速通道进行节点之间数据交换。第二个优势,基于SAS存储网络,将共享存储架构做高效的直接读写,也能够提供相当高的数据交换性能。第三个优势,这时各位就会想到数据安全性与可靠性怎么保证? 上场演讲友商提到,对于数据中心来说安全性是很重要的,数据可靠性也是很高的要求,所以我们自主研发技术来提供高可靠、高安全的机制,包括存储数据迁移与虚拟机的迁移,以及网络故障的转移,还有整个集群的迁移,我们都透过自主研发的机制,并商业化的产品设计整合,来进行云数据中心整体的管理。

  所以,我们超融合一体机的架构 可以总结五个特点。第一,它和企业级高端系统与设备一样高可用,但成本更低。第二,它很容易使用,不依赖专家的支持便可运维。第三,可以节能。因为整个架构上已经进行了优化跟简化。第四,数据可靠性可以达到11个9。第五,在技术上面做了很多突破,所以它的IOPS可以轻松的达到百万的性能。

  提到用超融合来去运作1EB数据中心,我们测算过,在设备成本,运维成本,电力的节省,温控成本,还有整个部署的时间成本等等,实际的结果是节省50%,跟传统的数据中心比较起来节省一半。所以,总体成本一个1EB数据中心运维的非常重要一点,用较低的成本达到比较高的性能,同时也确保运维的可用性,还有数据的可靠性。

  简单介绍一下我们公司。我们公司有20多年的历史,过去在数据的保护,文件的保护,还有超融合数据云的建设,都有多年的经验。早在几年前我们就已经开始进行超融合一体机的这样一个建构与开发。

  因为我们超融合技术投入与产品的因素,我们很荣幸的能够得到凤凰大数据中心的青睐,我们很荣幸于今年4月份签下一个十亿的数据中心订单,让我们在浙江绍兴能够建构一个1EB存储跟计算能力的数据中心。

  最后说明超融合数据中心的建设架构上,我们采取了以每个机柜为一个重要的节点,然后形成一个集群,这个集群是可以扩充的,并且可以够扩充成所谓的超大型数据中心。为什么我们可以这么容易的扩充呢?是因为我们是用超融合的结构,把计算,网络,存储都用软件定义。同时,我们把整个集群的功能已经融合在我们的产品里面。并在公有云,或者私有云的运作机制上,也把相关的功能与管理营运融入,还有系统控制管理跟用户的界面也都整合到超融合的产品里面。

  所以,当客户需要扩建,需要增建整个数据中心的运作与设备时,只需要以机柜的方式购买就可以很快的加入现有的数据中心运作。透过我们的安全跟迁移的机制,能够很快的让客户的系统进行快速的迁移并达成负载均衡。所以,这就是我们建设超大型数据中心所用到的超融合架构,这种架构能够快速的建构云数据中心,所以无论企业需要建立私有云,或者是大型机构需要建立公有云,都能够以很快的方式建立起来,不再是过去传统需要6个月,或者是一年以上的时间,我们可能只需要三个月的时间,甚至更短的时间就能够建立数据中心。

  这是书生云的最终目标,让天下没有难建的云,今天我就介绍到这里,谢谢各位!

阅读排行