您的位置:首页 >原创 >

史上最大亚马逊35PB资料仓储上云经验首度大公开

原标题:史上最大亚马逊35PB资料仓储上云经验首度大公开

Amazon首度公开过去电商平台採用多年的线上交易与资料仓储服务架构图(还未全面改用AWS资料仓储前)。从这个架构图来看,不只资料仓储是採用Oracle RAC资料库架构,在它上方,还有提供3个针对营运、探查与BIM数据设计的专用资料仓储或资料库,里面用也都是Oracle, 再透过DB Link方式相连,连各种交易资料存放的OLTP资料库,也都有部分使用到Oracle产品。(图片来源/AWS)

「这是一个高达35PB的超大型资料仓储迁移的挑战。」Amazon.com大数据技术资深经理Thomas Park在今年AWS re:Invent一场专谈DBFreedom的黑板开讲(Chalk Talk)上,对着台下听众分享Amazon资料库上云经验时首度公开揭露这项数据。

Amazon在11月1日正式关闭电商平台使用多年的Oracle资料仓储系统,改搬到自家AWS云端资料仓储Redshift上,当时这个消息一出,科技圈譁然,成了热议话题。也让全球云端龙头AWS与企业资料库巨人甲骨文(Oracle)的资料库之争正式浮上檯面。

也因此,今年每一场只要打着Amazon资料库上云的相关议程,都成了今年最抢手的热门场次,早在活动前两周,议程才刚公布,坐位就早已全数被预定一空,只剩下现场候位,甚至活动前一天下午,议程还没开始,场外就已经排满人潮,等着抢听Amazon分享第一手的搬移经验。Thomas Park就是其中一场专谈「Amazon.com从Oracle资料库搬上AWS经验」的讲者。

Thomas Park表示,Amazon很早就开始採用Oracle资料仓储,在换成AWS以前,系统存放的资料总共有多达35PB(压缩后),1个PB(Petabytes)等同于1,000个TB,若以一个1TB硬碟厚度平均0.7公分来计算的话,35PB的硬碟,堆成的高度超过200公尺高,这还不包括还有一个同样压缩过的5PB的核心资料集,也都要一併改上AWS,这正是Amazon资料仓储上云面对的最大挑战。

Amazon电商平台背后採用多年的资料仓储服务架构图大公开Amazon大数据技术资深经理Thomas Park坦言,旧有的资料库设计方式,已无法跟上Amazon事业快速成长的脚步,所以,Amazon决定将资料库重新打掉重练,改用新的云端资料库设计方式来取代,以便能够快速横向扩展,来因应业务成长需求。摄影/余至浩

Thomas Park在传授资料库搬迁经验的过程时,也首度公开过去Amazon电子商务平台背后採用的线上交易与资料仓储服务架构图(自11月1日以后,Amazon资料仓储已全面改由AWS取代)。

从这个架构图来看,首先,Amazon所建置的一个超大型资料仓储丛集,全部都是採用Oracle RAC资料库架构,在它上方,还有提供3个针对营运、探查与BIM数据设计的专用资料仓储或资料库,里面用也都是Oracle, 再透过DB Link方式相连,连做为各种交易资料存放的OLTP资料库,也都有部分使用到Oracle产品,并透过Amazon自行开发一个可以用来管理不同资料库处理流程的ETLM管理平台,来进行协助交易资料萃取和转置。

Thomas Park指出,就像其他电商平台,Amazon刚开始,也使用许多OLTP资料库与Oracle资料仓储,用来处理不同类型的工作负载,像是Oracle资料库可以被用于承载交易型与非交易的工作任务,能处理的资料型态,包括目录、库存、线上交易、网页点击串流,以及行销等资料。而资料仓储则是用于蒐集大量交易数据与分析所用。

资料库扩充力,才是Amazon决定换掉Oracle的真正原因

但是,为何Amazom后来决定换掉原本资料库?Thomas Park说:「就是为了要让资料库具备横向扩展(Scale Out)的能力。」他表示,Amazon成立20多年来,在业务发展上,从开始用来查询交易资料与储存使用的资料库,用的就是Oracle资料库及其技术,并用这些资料库来建立Amazon网站底层的架构。但是当业务量逐渐成长,需要扩建更多的销售据点与资料中心,并且跨入不同领域市场,对于IT团队来说,必须要能很快扩展原有基础设施,来迎合业务快速成长需求。

但是旧有的资料库设计方式,已无法跟上Amazon事业快速成长的脚步,所以,Amazon决定将自己的旧资料库全部打掉重练,改用新的云端资料库设计方式来取代,以便能够快速横向扩展,来因应业务迅速成长。「这也是我们会决定从使用已久的Oracle资料库搬上AWS的最重要原因。」当然成本也是另一大考量,他事后补充说到。

一般来说,在新旧资料库搬迁过程中,企业会先针对旧资料库的纲要(Schema),先经过複製或转换,改到了目标的资料库后,才接着将旧资料库里存放的资料,透过如AWS DMS等资料库搬迁工具,再将全部资料移到新的资料库。

不过,Thomas Park强调,当一家企业发展成长到达一定规模,要迁移资料库,就不是一件容易的事,随着业务量成长,系统架构也将日益庞大複杂,例如需要不断扩增新资料库与备份资料库,来满足营运所需,还要能依据不同关键性应用,来针对资料库採用分层架构,以便于依资料使用频率与重要程度,对应到不同的资料库层存放,或是配合业务发展需求,採用新的资料库架构设计,如分散式资料库等。

以这次35PB迁移经验来说,Thomas Park坦言,光是要将这些资料全部搬迁到AWS环境,就花了1年多才完成,同时搬移的过程,还要确保整个资料仓储服务不能中断,能持续稳定运作,继续提供原有的数据蒐集与分析服务。对Amazon的IT团队来说,这是一大挑战。

最后,Thomas Park也说到,Amazon至今已经关掉的Oracle资料库,少说也有数千到数万个,现在,都已改用AWS的资料库服务,如Redshift、Amazon RDS、Aurora与DynamoDB等。

除了资料仓储之外,Amazon也将过去沿用了20年关键核心财务系统用的Oracle资料库,也都一併搬上AWS,总共搬迁多达93个资料库、185个实例,累积120TB的资料量,现在都改使用DynamoDB云端资料库。经过改用新的资料库以后,除了更易于管理,更高可靠,更加快近一倍的反应处理时间,也替Amazon省下70%整体成本。

Amazon从资料库迁移学到的10件事

1. 必须先提高能见度,全盘了解资料库使用状况,以利掌控进度。

2. 搬迁工程影响许多单位,事前须尽早寻求高层支持。

3. 须先获得所有资料库管理人员的支持,搬迁才能顺利。

4. 搬迁过程,应单独设立一组开发团队,解决不同资料库团队的共通问题,有助加快迁移。

5. 执行全程须与AWS团队保持密切合作。

6. 团队应克服对技术的恐惧,找出最棘手及真正的技术问题。

7. 认清便宜没好货,应追求最高价值,而非最省成本。

8. 以整体效率的改善,来说服尚未转换的单位。

9. 资料上云后,要建立统一管理平台。

10. 随时保有扩充弹性,然后庆祝胜利到来。

资料来源:AWS,iThome整理,2018年12月

相关报导  杀入敌阵!AWS企业市场新战略

相关推荐

猜你喜欢

特别关注