前有阿里雄心勃勃的数据中台战略,后有马化腾称“腾讯不会任意打通数据”的谨慎态度,近几年,数据中台作为“大数据的下一站”,成为业界热议的
那么,数据中台究竟是什么?为什么它会如此为大公司重视?它又是否是大公司的专利?在数据技术时代,它又将带给不同公司怎样的启示?
数据中台概念最早于 2015 年年底被阿里巴巴首次提出,是阿里雄心勃勃的中台战略的核心之一。2015 年年底,阿里巴巴集团对外宣布全面启动 2018 年中台战略,构建符合 DT(DataTechnology,数据技术)时代更具创新性、灵活性的“大中台,小前台”组织机制和业务机制。
根据阿里中间件首席架构师钟华在其书中的说法,“中台将集合整个集团的运营数据能力、产品技术能力,对各前台业务形成强力支撑。”
2015 年年中,马云带领阿里的高管们拜访了移动游戏公司Supercell。Supercell 以《海岛奇兵》等游戏知名,号称是世界上最成功的移动游戏公司。
Supercell 允许由 2 到 5 个人,不到 7 个人的小团队自主创新,以最快的速度推出公测版,检测游戏受用户欢迎的情况。2016 年 6 月腾讯公司以 86 亿美元收购了员工数不超过 200 人的 Supercell 公司 84.3% 的股权,每一位员工人均贡献值超过 3.54 亿人民币。
必然有很多公司想要模仿这样成功的模式,却总是达不到相同的效果。钟云认为,是因为那些公司缺乏 Supercell 所构建的中台,业务得不到有力的支撑。Supercell 将多年实践中积累的科学的研发方法和有关技术集成为一个完善的中台体系,这样才可以支撑这些区区几个人的组成小团队在极短的时间内就能研发出一款新游戏,快速上线测试,探知用户喜好,把握市场。
Supercell 的模式给阿里高管们带来极大的震撼,他们开始反思信息时代的公司架构究竟应该是怎样的,怎么样才可以将公司的每个部分、将公司的资源有机结成在一起。此行之后,阿里巴巴的领导层下定决心进行组织架构的调整,并真正开始启动中台战略。
在阿里庞大的中台战略中,数据中台的建设就是核心之一。它旨在为阿里生态中的数据提供统一的接口,承载集团数据中心的工作,核心任务就是建设全域大数据。
2017 年云栖大会阿里大数据分论坛上,阿里的高级技术专家张磊介绍到:从内容上看,数据中台管理和运维着阿里巴巴集团最核心的基础数据;在技术上,它覆盖了从数据采集、计算加工到数据服务、数据应用等消费链路上的每一个环节,为阿里生态中的业务,用户,中小企业提供全链路、全渠道的数据服务。
从上图所示的阿里数据中台的全景图上能够正常的看到,整个阿里巴巴数据中台呈现了“四横三纵”的体系结构。
其中的三纵分别是统一计算后台(上图最下方紫色模块);第二部分是统一数据中台(上图中部无色模块),第三部分赋能业务前台(上图上部红色模块)。最下方的垂直数据中心负责数据的采集接入。这部分输入的数据主要包含两方面:第一部分是按照业务状态接入的企业内部的数据,例如淘宝,天猫的数据等;第二部分是依据业务需求从其他数据源爬取或采购的数据,如天气数据等。
接下来,这一些数据集成到以业务板块,业务过程和分析维度为架构构建的公共数据中心 OneData。最后,基于 OneData 公共数据中心,上层的数据萃取数据中心依据业务需求或自然对象结合萃取标签建设例如“消费者数据体系”的不同的数据体系,构建 OneID 体系。这三部分组合在一起就构成了阿里开放的,面向应用的统一服务中间件 OneService。数据经过 OneService 的深度加工后可以更好地发挥它的价值,新的业务可以简易方便地建立在数据中心之上。
现在,阿里内部数据平台上已经有几十种不同的数据产品,每天有来自不同部门的上万名员工使用这一些数据产品进行业务分析,做出决策。
可以看出,数据中台是一个统一的数据管理系统,它的目标是根据公司的业务需求等制定统一的规范,对数据来进行组织和管理,但它并非是彻头彻尾的新生物,现阶段的数据中台的核心技术就是数据集成。
图丨 数据集成架构示意图。左图为数据仓库模式。该模式通过抽取器定期从数据源爬取数据,将数据物化,存储在物理的数据仓库中。用户的查询访问等直接在数据仓库中进行。右图为虚拟中介模式。该模式不爬取数据,而是根据创建的模式将用户的查询重写为数据源上的查询在数据源上执行(来源:DeepTech)
数据集成的目标是为多个自治的,异构的数据源提供统一的访问入口。即将自不同数据源,形式各异的数据集成,让用户都能够忽视这些差异,以统一的方式访问。数据集成系统有多种可能的架构,但绝大多数系统都介于数据仓库和虚拟集成系统之间,如上图所示。数据仓库就是把各个独立的数据源加载并存储到一个物理数据库(数据仓库)中,即对数据来进行物化。当用户的查询到来时,直接在数据仓库上执行。在虚拟集成系统中,数据还是保存在原来的数据源中,通过建立中介模式和数据源之间的映射完成用户与数据集成系统的交互。当用户查询到来时,根据映射将查询重写,在数据源上执行。
目前,阿里数据中台的代表性产品之一——蚂蚁金服的全行数据中台解决方案——已为多家银行所应用。该数据中台为银行业提供一整套端到端的大数据中台解决方案,从其官网介绍中主要是针对的行业现状和痛点,我们显而易见数据集成尤其和大数据集成的影子。
相比于 Web 网页上的大数据集成,企业内部大数据集成的难度由于企业内部数据质量有保障,多样性易于统一等同样有所减小,它挑战大多分布在在数据的海量性和高速性给数据集成在保证实时性带来的困难上。
它可以近似理解为企业的统一数据集成平台,为企业的各项业务和活动服务,对公司的数据来进行统一的管理。这样统一的规范化的管理使得不同的数据得以集成交互,打破之前不同部门不同数据源之间的壁垒,让数据的价值爆炸性增长并得以被充分挖掘。
现在,阿里已经推出了不同的类型的数据中台产品:OneData 致力于解决大数据集成的痛点;蚂蚁金服的相关这类的产品则专注金融行业的数据中台构建;而“生意参谋”则是阿里内部数据开放的窗口,集成了海量数据及店铺经营思路,可以越来越好为商家提供流量,商品,交易等店铺的数据分析预测等服务,协助商家进行商业决策。
从以上内容,我们显而易见这样的数据管理系统对于类似阿里这样的拥有庞大ECO的企业的重要性,几年来众多大型网络公司和银行机构也纷纷打造自己的数据中台。
数据被誉为企业“石油”,它可以反应企业活动,经营状况方方面面的信息。在数据时代,不能利用数据协助自己的管理业务,做出决策的企业很难走的长远。不管是不是已经手握大数据,对现有数据的管理都是每一个企业都应思考的问题。这种考虑不单单是针对企业当下的状态,更应该有长远的考量:如何充分挖掘数据的价值,为新业务的扩展助力。而这一切的背后,不能离开数据集成技术的支撑。
不过,虽然每个企业都应该合理管理和充分的利用数据,但数据究竟要集成到什么程度,以怎样的形式使用和开放却是要谨慎对待的问题。
就像马化腾就在 18 年 11 月初第五届世界互联网大会的论坛上所说的:“我们要从用户的角度来考虑,把个人隐私信息和数据保护放在优先地位,而不能套用其它公司的做法,把数据直接去任意打通。”他强调腾讯不会任意打通数据,技术中台会打通,但数据中台要特别谨慎。
原文标题:马云say yes、马化腾说“需谨慎”,风口浪尖上的数据中台究竟是什么?
文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。
运放输入偏置电流的方向是流入运放芯片还是流出运放芯片?这个怎么确定的?
流入运放芯片还是流出运放芯片这个怎么确定的?是不是得看运放是三级管还是MOS管组成的,三极管还得看
用CD34G来实现usb转串口的时候,直接用usb口的5v作为电源电压,它的tx引脚输出的高电平
5v还是3v,我实测是3v,但网上有的人是5v,想进一步得到大家的确认。
包上的标签,而不是 IP 本身,这使得服务提供商可使用 MPLS 为此类客户提供 VPN 服务。
什么? /
随着科技的加快速度进行发展,物联网技术已逐渐渗透到我们生活的各个角落,而 工业物联网(IIoT) 更是引领着工业领域的数字化转型。那么,工业物联网
0x00还是0xff ,百度查了许多发现大多数都是0xff的多,都说SD卡(TF)储存介质是Flash 所以擦除后为0xff,但是我遇到了读出来的
怎么来的呢?栅源振荡的危害什么?如何抑制或缓解栅源振荡的现象呢? MOSFET(金属-氧化物-半导体场效应晶体管)的栅源振荡是指在工作过程
如今,吸尘器已成为大多数人居家必备的小家电产品,那么说起吸尘器,你对吸尘器有了解多少呢?不知道大家知不知道它的原理是什么?今天我们就来说一说吸尘器
如何替你“吃灰”的【其利天下技术】 /
的共模噪声的重要元件,其最大的作用是提供阻抗来滤除共模干扰信号。尽管外观看起来“其貌不扬”,但共模电感通过其特殊
与什么同步啊? 所有的同步电机的转数都一样吗?还是与电机的极对数有关系呢?
什么呢? 半导体材料的内部电荷运动机制是半导体物理学和固体物理学的重要研究领域之一。在这篇文章
如何规避路由环路的呢? OSPF(开放式最短路径优先)是一种内部网关协议(IGP),用于在一个单一的自治系统(AS)内进行路由选择,它是一种链路状态协议(LSP)。在OSPF
《DNK210使用指南 -CanMV版 V1.0》第十一章 FPIOA管理器实验