消防手抄报,脚气,个税计算器-好习惯学习社区,为学习铺平道路

频道:国内时事 日期: 浏览:305

问题导读:

1、淘宝网数据仓库渠道发展阶段有哪些?

2、怎么了解天网调度体系架构?

3、怎么了解云梯数据仓库、数据同步架构?

4、孔明灯处理方案要点流程有哪些?


2003年至今淘宝网从零开端飞速发展,走过了13个年头,支撑淘宝事务粗野式生长背面是一套不断完善的技能渠道,淘宝大数据渠道,便是其间十分重要的一个组成部分,承当了数据收集、加工处理、数据运用的责任,淘宝大数据渠道一路到今日,一共阅历了三个大的阶段(如图1),不同阶段面临了不一样的应战,跟着我的了解回忆下这些年大数据所阅历过的故事:

第一个阶段:RAC年代

2008年前的单节点ORACLE,这个时分还称不上数据仓库,只能承当简略的数据处理作业,也基本上没有数据仓库架构,跟着事务的飞速发展,很快单节点的ORACLE因无扩展才能,核算存储才能就敷衍不了了;

2008年之后,为了应对日益增加的数据量,RAC集群应运而生,从一开端的4个节点逐渐发展到20个节点,成为其时声称全球最大的RAC集群,在ORACLE官网上也作为了经典事例,RAC集群其时不论在稳定性、安全性、存储才能仍是核算才能都体现十分优异,随之而来第一代数据仓库架构也逐渐构成;

这个阶段数据的ETL进程首要经过ORACLE的存储进程完结,很多的SQL脚本使命运转在集群上,使命运转的调度进程是经过Crontab来进行操控办理,跟着使命数的不断增加,这时面临最大的问题是怎么确保这不计其数的脚本每天是正常运转,犯错后怎么及时发现处理,这在其时天天困扰着开发,一向处于每天救火的情况,也便是这个时分,为了处理这个难题,数据团队开端自主研制调度体系,并将之命名为天网调度体系,构成了如下第一代调度体系的架构:

第一代调度体系原型:

第二个阶段:HADOOP年代

调度体系的上线很好的处理了每天救火的情况,可是好景不常在;2008年,淘宝B2C新渠道淘宝商城(天猫前身)上线;2009年,淘宝网成为我国最大的归纳卖场;2010年1月1日 淘宝网发布全新主页,尔后聚合算上线,然后又推出一淘网;事务的飞速发展给数据带来的应战,便是每天处理的数据量也在不断的翻倍,首要碰上瓶颈的是RAC集群针对网站的拜访日志数据现已搞不定了,RAC集群虽然有必定的扩展才能,可是无法无限制的线性扩展,而且扩容就意味着昂扬的机器本钱和软件本钱,为了应对日益增加的数据量,2009年数据团队开端探究新的技能领域,一起探究运用了两个方向的技能:Greenplum 和 Hadoop,首要的场景便是用来处理海量的日志数据,Hadoop因其杰出的线性扩展才能,而且是开源的体系,可以根据官方版别二次开发合适淘宝的特性功用,逐渐占有了优势;

2010年头,终究确认抛弃Greenplum和RAC,全面运用Hadoop,也便是这个时分我加入了淘宝数据团队,之后不久数据团队发动了去O项目,整个数据团队历经一个多月时刻,风风火火将一切RAC上的存储进程,改写成HIVE和MR脚本,并将一切的数据都搬到了Hadoop上,Hadoop集群命名为云梯1,构成了Hadoop年代的数据仓库架构,如下图4:

进入2010年末,数据运用场景越来越多,2010年末发布了量子核算(淘宝官方版),2011年4月1日淘宝发布了数据魔方,将数据对外进行敞开,广告和查找团队也很多将数据运用到事务体系中,对内的淘数据产品也越来越老练,数据的很多运用,带来的一个问题是怎么确保数据的准确性和稳定性,需求从数据收集到数据加工及终究的数据运用全流程的保证;

这时第一个环节就碰到了问题,数据同步,事务体系有各式各样的数据源,ORACLE、MYSQL、日志体系、爬虫数据,其时有多种同步的方法,有经过SHELL脚本的、也有经过Jdbcdump的、还有其他方法,其时担任数据同步的同学,最苦楚的作业莫过于,事务体系进行数据库改变时,各种同步使命需求不断的调整,每次调整几百个使命极端简单犯错,其时为了处理数据同步的问题,数据东西团队开端研制专门的同步东西DATAX,也便是现在同步中心的前身,一起还研制了针对DB的实时同步东西Dbsync和针对日志的TT,现在一致叫TT,如图5:

天网调度体系也不断进行完善,开端支撑小时调度、乃至分钟调度,而且集成了主动告警等一体系功用,晋级为在云端,相关的DQC体系、数据地图、血缘剖析等周边体系在这个时期不断推出,数据团队也不在断强壮。

在这期间,双十一网购狂欢节的影响力不断扩大,已成为我国电子商务职业的年度盛事,而且逐渐影响到世界电子商务职业,不断改写的成交记载影响着一切人的神经。这时为了直观的供给第一线的数据给到决策层,发生了数据直播间的数据运用,需求活动当天及核算相关的数据,2013年前,选用的方法都是根据Hadoop一个小时核算一次的方法进行数据核算,数据存在必定的推迟性,从2013年开端,数据团队开端投入研制实时核算渠道,也便是现在的galaxy,并在当年的双11上线了第一个运用,双11数据直播间实时版别。

第三个阶段:MaxCompute(原ODPS)自主研制的大数据渠道年代

就在Hadoop很多运用的一起,别的一个项目正在悄然进行,那便是阿里云团队自主研制的ODPS体系,ODPS一切的代码都由阿里自己完结,在一致、安全、可办理、能敞开方面比较于Hadoop做了很多的完善,ODPS体系命名为云梯二,从2010年开端,在很长一段时刻内,一向处于云梯一和云梯二并存的情况;

这期间,集团为更好的打造数据生态,建立了CDO,一致数据渠道作业群,专门投入研制大数据渠道的相关东西,包含核算存储渠道、周边的调度体系、元数据血缘体系、数据质量办理体系、还有DQC等;

这个情况继续到2013年4月, 这时呈现了一个新的应战,Hadoop集群的上限是5000个节点,依照其时数据增加数据的计算,集群存储行将撞墙,可是根据其时的情况,ODPS无法完全代替Hadoop,所以其时发动了一个规划十分巨大的项目,叫做“5K项目”,一起进行云梯一和云梯二的跨机房集群项目,其时世界上没有任何一家公司具有跨机房的才能,存在十分大的技能应战,终究项目历经近5个月的周期,霸占很多技能难点,项目取得了成功;

在“5K项目”成功的一起,ODPS架构逐渐老练,所以全集团又发动了一个规划更巨大的项目,叫做“登月项目”,将全集团的数据加工运用悉数搬移到ODPS,项目一向继续到2015年,Hadoop正式下线,淘宝大数据完全进入ODPS年代,整个数据的生态圈也越来越丰厚,一起,阿里云开端对外供给云服务,其间大数据处理方案作为其间重要的组成部分,也开端对外供给;

时刻回到2013年时,其时淘宝数据团队的每个成员都在忙于应对各类需求,每天都有做不完的各类报表,其时为了挽救自己,数据团队开端探究探究新的数据服务形式,考虑怎么处理数据冗余、口径一致、数据交换、用户自助等一体系问题,终究经过一段时刻考虑和探究,开端研制孔明灯产品,针对不同的数据人物构成了一套完好的数据处理方案,如下:

孔明灯产品的呈现,对传统的开发形式做了个晋级,对整个大数据建造也起到了十分好的办理效果,其时在淘宝内部,覆盖了大部分的事务BU,对数据运用本钱的下降,释放了很多的人力,一起也招引了外部用户高德地图、阿里健康根据这套体系进行大数据建造;

2014年,集团公共层项目发动,集团内的各个数据团队,开端进行数据内容重构和整合,一起,CCO正式建立,七公来到CCO带领技能团队,薛奎来到CCO带领数据仓库团队,CCO也根据ODPS发动公共层建造项目,集成了包含淘系、1688、ICBU、AE相关的服务数据,公共层建造的一起完结了登月项目,而且与DIC团队、RDC团队协同建造了服务数据门户DIGO产品。

今日

数据在阿里巴巴现已深化到每个旮旯,阿里云有强壮的算法团队、大批的数据接口人、剖析师,每天的作业都与数据发生相关,跟着人工智能的不断深化运用,事务体系的不断创新迭代,对数据的收集、加工、运用又提出了新的要求,怎么更好的供给数据服务,面临未来咱们需求考虑更多,数据将进入一个新的年代-数据智能年代。


每日一篇大数据优异文章,助力大数据开发者生长!

来历:阿里云

热门
最新
推荐
标签