以分布式作为技术突破口 「分布式数据」论坛探求数据价值最大化丨Distributed Cloud

2021-02-18 10:57:05来源:亚太CDN产业联盟 热度:
为期两天的Distributed Cloud|2020全球分布式云大会,为5G商用时代的到来,在新一轮云计算技术变革的关口,呈现出分布式云生态全景,影响2021年分布式云战略科技趋势,共享新商业引擎,共寻亿万级苍穹,开创未来新篇。
 

 
2020年12月18日下午在Distributed Cloud之分布式数据论坛上,紧接嘉宾的精彩分享之后,金山云余邵在、蚂蚁集团易鸿伟、新数科技陈传凯、亚信科技姜明俊、星环科技赵志强、亚太CDN产业联盟何云峰就分布式数据库话题展开思维碰撞。
 
全球分布式云大会丨Distributed Cloud 分布式数据·圆桌对话嘉宾:
 
金山云 数据库总监 余邵在
蚂蚁集团OceanBase 高级技术专家 易鸿伟
新数科技 华南区总监联合创始人 陈传凯
亚信科技 数据库创新实验室 产品总监 ​姜明俊
星环科技 高级产品专家 赵志强
亚太CDN产业联盟 秘书长 何云峰
 
何云峰 /主持人/亚太CDN产业联盟
 
为什么现在分布式计算和存储的云原生分布式数据库会火?国产数据库运用HTAP的机会在哪里?
 
余邵在 /金山云:
 
我谈谈我的想法,为什么分布式数据库会火,刚才几个老师或多或少提到了,我觉得有两个比较重要的原因,一个是天时,因为国外的一些原因,对国产分布式数据库是天时上的优势。

在2000年左右,已经提倡做所谓的GROE的浪潮,这算是第三次,第一次是在当年四小龙,他们当时做GROE,第二波浪潮是2000年左右,是以阿里最早做,在淘宝内部做Oracle的替换,用MySQL替换,我的理解是,现在是第三次浪潮,这是天时的优势。第二是跟业务的发展局势有关,现在随时互联网大数据的兴起,业务对吞吐流量数据量是不断蓬勃发展的,以前是单体比较多,现在就很难去承载业务的高峰。

还有一个是分布式前面还带了云原生,云数据库的概念,云原生我刚才也提到,最重要的是弹性,你需要根据业务的高峰低峰,能不能做到自动升缩的能力,比如说双十一大促,像有些客户有做电商,有做视频的,他们希望在大促的时候给一千台机器,快速建出来,大促之后就不要了,这也是云原生所需要提供的能力。所以为什么云原生分布式数据会火,我的理解是这两个会比较关键。
 
HTAP后面几个老师也介绍了,我觉得有三种架构,第一种现在用得比较多,比较主流的,就是你有一套TP的集群,你有一套AP的集群,中间通过DTL工具做转换,把数据给传到AP上,好处就是交易业务和分析业务不干扰,但是维护和成本就很高。第二种是过渡型的,它的存储是分开的,计算是不分开的,计算层可以通过统一的路由去判断SQL应该走交易型数据库还是分析型数据库,因为对于一个AP来说,存储用于列存会更好,有的是通过本身数据库的数据复制的机制做数据复制,有的是通过第三方,但是计算层是统一的。

还有一种,真的是放在一块的,就像现在业界有的TBASE,能做到真正意义上的行列混合存储,一张表建起来的时候,或者是不同的表可以支持行存或者列存,好处就是相反的,好处就是自己成本节约了,不好的地方,因为有可能你的分析型业务,如果说流量或者计算量比较大,有可能会影响交易型的业务,这是会有影响的。

我觉得未来我们的HTAP应该怎么发展,后面两种方案会更好一些,没有绝对的好跟坏,就像一个人一样,通材和专材是一样的,或多或少在某些特性上会做一些折中或者取舍,所以我的理解是,还是看业务,如果业务的交易非常重要,有可能这种分析型业务也比较多,我建议存储层面需要做一次拆分,镜像层面可以做统一整合。如果有一些业务对成本的诉求更大一些,业务流量不是那么大,可以采用第三种方案,计算和存储都可以合并。我觉得第二和第三种方案是比较好的发展趋势。
 
易鸿伟 /蚂蚁集团 OceanBase
 
余老师已经把几个AP和云原生讲得比较丰富了,我补充几点,存储计算分离为什么这么火,还是天时地利人和,我们内部会有一些判断,未来网络的性能会超过本地磁盘的性能,内部可能实际的网络或者40G的网络,现在也有100G网络的,数据上比本地磁盘好看,这是技术的趋势,所以做计算存储分离。

这是最主要的技术趋势,所以计算存储分离还是一个蛮好的发展趋势,但是本身又会有自有的限制,假设网络能到100G,但是它不能放机房,如果有机房还要做容灾,大多数做存储计算分离的是一个写,多个读,也做得不是特别好,会有自己的性能瓶颈,但是能够适用于大多数场景,在一定规模下,需求量非常大的时候,并不需要做机房容灾,有它的发展方向,每个数据库都有自己适用的场景,这是没问题的,还是会越来越火,等有更好的技术或者有硬件能支持网络设备的问题,我觉得才真正能达到巅峰的时候。

至于云原生,我记得之前跟CNCF的人聊过很多,现在整个社区或者业内发展的方向是基础设施下沉,不太需要把所有的能力都往上层做,稍微往基础设施下沉,这其实都是整个业态发展的方向,计算存储分离之后,就不用在计算层做rafe同步了,可能三副本,换了存储计算分离之后,存储成本可以压缩到1.39倍,没有超过3倍,所以这是整个业内的发展方向,云原生这个理念也能够驱使云原生的数据库的发展,这也是为什么会越来越火。未来会越来越好,当下有它的限制,既好也有不好。
 
还有HTAP的发展机会,于老师介绍的确实是非常典型的三种场景,行内混合的是非常厉害的方式,用最适合TP和AP的两种存储方式来做到HTAP模式。但是HTAP到底是什么?这个概念近两年已经不提了,六七年前谷歌把实时分析数据库搞出来之后,TP和AP混在一起叫是不是就叫HTAP?

没有明确定义。所以我理解机会就是大家还是想看看客户到底需要什么,因为那三种方式,第一种成本比较高,要搞两套数据库,客户要省成本,除了机器成本还有开发运维成本,所以大家可以一起去想业内客户是需要什么样的模式,现在是没有结论的,我们也会探索到底客户需要什么样的HTAP,说不定第一种也可以,第二种方式也不错,第三种是不是也OK,需要大家一起去探索。

姜明俊 /亚信科技
 
前面三个老师都讲了,我补充一点点,计算和存储分离我认为背后的本质要的是极致的弹性,刚刚易老师也讲到了,因为未来的发展方向都是往底下层,硬件网络存储的速度越来越快,再加上过去数据库的设计理论都是单机方式处理的,随着硬件能力发展之后,使得我们的数据库开始解耦,第一个想到的就是把计算和存储分开来做,解决的就是很好把计算和存储可以做很好的弹性,这是最初的出发点。
 
另外HTAP,在我认为就是资本运作或者炒作的概念而已,数据库也好,以前Oracle就不叫HTAP吗?也有AP和TP的融合,也有复杂的查询问题,只是说到今天来看,在分布式场景下要解决这些问题的时候,他发现AP的问题凸显出来了,同时要解决在核心交易上的问题,没有说哪一个一定是对的,还是要看客户的场景最终找到哪一种,如果全是HTAP是不对的,我认为云原生只是在技术架构,不是说不上云就一定是用云原生,这是两种不一样的概念,不要被混淆。
 
赵志强 /星环科技
 
我简单的以我的经历做补充,一个是我帮我们团队做过一些股票期货数据处理,它有个特点就是数据量很大,先是基于单机的,之后要分表,分表之后解决数据大容量存储问题,但是他发现分析不行,所以当时就引入了Hadoop方案,后来就发现有个短板,我发现年报是可以改的,过个几天修正一下又发布,怎么办呢?

当时的情况,TP和AP的gap太大了,短板很明显,HTAP也很好说明这个问题,还是要融合,因为新系统上线的时候,这两个都必须考虑。现在普遍的情况就是大家都在弥补自己的短板,TP通过一些分布式查询也能解决,主要看业务场景,技术是要持续进步的,要解决低延迟的问题,还有SQL混合负载,这是对用户最理想的场景。
 
第二个经历,计算式存储原来是做大数据挖掘和AI的场景,有大量的数据交换,当时上了很多高级的硬件,解决扩展性,现在技术到了一个混合的情况,它的优势还有短板都相互有一些改进。

何云峰 /主持人/亚太CDN产业联盟

第一个问题大家补充了很多,因为时间有限,我们直接进入互问环节。
 
余邵在 /金山云:我还是沿着HTAP的话题,想了解星环这一块,因为我们是有合作的,我们现在在AP和资源图谱上有合作,你刚才也提到了HTAP的发展方向,我知道你们有两个产品,一个是RODB,一个是KunDB,这两个产品未来会是什么样的定位?KunDB以后会直接兼容RODB吗?
 
赵志强 /星环科技:技术上的路线是多模化,管理和数据维度我们不管,这大家都会去做,我们做的是SQL层,数据模型和数据计算这一层是多个核心的,存储的话,我们也有自研的,存储会放一份存储在底层,长远的发展方向就是TP和AP两个引擎会分开做,但是存储会尽量在一个存储里做,这样一致性会好一点。
 
余邵在 /金山云:TP和AP下面的分布式存储是一样的?
 
赵志强 /星环科技:对。另外短期产品形态是确定的,一个是业务场景会做探索,一个是完全面向大数据场景,这一块主要是通过日志同步的方式,包括数据同步链条还有点长,我们后面直接想通过日志同步去做,尽量下沉,从而延迟上有改进,这是我们中期的方向,现在还是异构逻辑来做。
 
易鸿伟 /蚂蚁集团 OceanBase:我问姜老师,刚才私下请教过,AntDB做了七年,刚才PPT也有很多细节的点,做Oracle国产数据库是比较大的方向,AntDB做得这么极致的不多,我的问题是,做得这么极致之后,除了SQL兼容性之外,数据库的生态还有各种框架,还有各种生态的引擎,你这边是怎么考虑和Oracle相关的周边生态工具的发展和建设?
 
亚信科技 数据库创新实验室 产品总监 ​姜明俊:谢谢易老师,在Oracle兼容里面,我认为是分成三个层次,第一个层次比较好做,就是语法和函数的兼容,第二个层次就是Oracle功能的兼容,第三个层次是做到跟Oracle百分百兼容,但是这个基本没人做得到。在第一个层次做到的时候,现在是往第二个层次演进,就是Oracle功能性兼容上,在Oracle的最大性能、最大保护上是做到了,在对于用户来讲,救命的特性,我们会加强能力的提升,这是未来下一步的发展方向。

还有生态的周边工具,Oracle的报告等等,这些都是已经有,包括跟常用的客户端的工具都做了适配。除了框架的,在Oracle的新开发利,OCI的这些包我们也都已经做完了,我们在Oracle里也有C的替换的应用场景。

其实我后面还想补充一点,Oracle的功能性兼容只是说短期行为,可能是在国产化替代过程中,帮助客户大幅度降低了一开始实施迁移的成本,但是我们不能在这条路上一直去做,我们要不断探索出自己国产化的技术演进的道路,这才是我们更多要往后面思考和探索的地方。

当然在前期的时候,可以不断学习Oracle怎么做产品规划,怎么来做捕捉市场机会的,然后结合到国产化国内的需求,未来要在这条道路上演进,不能一直跟随。
 
亚信科技 数据库创新实验室 产品总监 ​姜明俊:我来问陈老师,刚刚听您讲了新数在金融行业有很多数据库管理方面的资深经验和产品沉淀,在未来国产化上会不会支持更多的产品跟你们的产品进行结合或者融合,使得双方能够更好的互补之后,你们下一步有什么计划和打算?
 
新数科技 华南区总监联合创始人 陈传凯:这个肯定会的,我们还是跟着客户的角度走的,国产数据库管理需求目前客户也是提得非常多,我们目前正在做华为几个相互的认证,目前我们已经遇到了有一些客户是提出来,每个厂商有自己的特点,但是我们的特点是可以跨多个库,可以统一来管理,不需要这个库一个管理工具,那个库一个管理工具。而且我们的工具所有的接口都是开放的,甚至你可以自己在里面定义一些自己的东西,甚至有些图表,所以你问到的,我们现在也是在逐渐投去做。
 
我们现在就有客户提出来,因为客户用了我们的产品,觉得我们的产品不错,纳入到了数据库,他们也有OB在用,是农信体系的,希望我们把OB拉进来,易总主要是库的开发,阿里这边对于这些周边产品,比如说管理平台,目前是什么样的定位?包括后续跟一些友商是怎样合作的策略?
 
易鸿伟 /蚂蚁集团 OceanBase:首先说一下我的工作职责,我一半工作是做驱动和数据库代理、网络协议相关的,还有一大半是做公有云平台的,所以跟你的比较类似,可能很多人觉得大厂不太开放,但是我觉得如果做一个比较成熟的商业化产品,要跟很多生态的公司和产品要有很好的合作,很多经验也是想学习的,现在是有专门的团队来负责各种生态的伙伴来组建,看怎么样更好的集成到里面去,因为国产数据库是大家庭,这是近两年的行情,我觉得国产数据库是很团结的,目标是让整个中国的基础设施能够做得更好。所以还是会不断把生态和合作伙伴做得更好,将来可以深度交流。

何云峰 /主持人/亚太CDN产业联盟:我和余总都是基于MySQL做用户实践,我看你改了MySQL内核,做了改进,每家都会做改进,社区也不一定能接受,另外今年看一些行业搞类似金融MySQL的分支,不知道于总这方面有没有什么思考?各家其实都做了不错的实践了,有没有自己的想法?
 
余邵在 /金山云:说到开源这个事情,我觉得还是要去接纳开源,国内一些产品借助开源的力量能够快速把产品迭代起来,我们叫国产数据库,我们是一个共同体,希望把自己的一些能力大家贡献出来,然后互帮互助,把自己的国产数据库做好,我觉得这是第一阶段作为数据库行业的人的使命。

我们其实也会站在巨人的肩膀上,现在做的有些事情是会参考之前阿里SQL做的东西,如果说我们在闭门造车,重复造车,对自己和整个行业都不是好的发展,现在是先借鉴这种开源已有的东西,站在他们的肩膀上,能够接纳进来,然后我们也会根据一些客户实际遇到的情况和问题,做一些优化,也会反馈给社区,不管是中国自己搞一个分支还是什么方式,这个过程我觉得还是需要大家一起持续去做,我觉得中国的国产数据库发展,还需要大家一起努力把它做好。

何云峰 /主持人/亚太CDN产业联盟:

非常感谢五位嘉宾的精彩分享,讨论跟交流,以及互相的提问,基本上每人一票,非常均匀,代表了整个国产数据库行业的团结的迹象。

为什么国产数据库这么火,其实跟你们有很大的原因,因为是你们在努力,你们在布道,以及你们看到了远大的方向以及梦想在做,所以才有今天,而且你们不仅仅是在今天,可能明天后天都在布道,都在努力,才有今天行业火。我第一个代表整个行业感谢你们,也感谢下面的观众坚持到现在,分布式数据库论坛到此结束,明年再见!

责任编辑:吴昊