站在后疫情时代的,这一年大家都过得很不容易。我们不再单纯相信“咬牙扛过去就是春天”,而开始把反复的疫情视为“不确定性常态化”的表现,更积极地去寻找解法——在不确定性中,确定的究竟是什么?
可以确定的是,VUCA(易变性、不确定性、复杂性、模糊性)将在这个世界存续,从政治、经济、社会生产等多领域表现,影响深度波及企业和个人的方方面面。
还可以确定的是,未来,唯有数据只增不减。而数据智能恰恰建立在全局数据基础之上,成为人类应对不确定性的底气——基于云计算、大数据、AI三大技术的发展,我们能够迈向数据智能,用数据激活连接,用算法代替经验公式,用数据智能总结过去、反映当下、预测未来。
这就是我们探索数智化转型基础设施的缘起。
我投身数据这个行业二十多年,亲身走过从数据库、数据仓库、数据平台到云数仓的发展和建设历程。现在,我们认为“数据云”正在成为新一代的企业级数据基础设施,它将陪伴VUCA时代的企业建立自己的数智能力,应对一个又一个未知挑战。
为什么是数据云?从数据价值的确定性说起
说到“数据云”,我们会想起年Snowflake上市的盛况,Snowflake是第一个把CloudDataPlatform的概念写进招股书的公司,其首日市值突破亿美金。
今年5月,奇点云发布了品牌升级,从“AI驱动的数据中台”,正式升级为“客户的数据云”。
很多朋友问我,“什么是数据云?”“为什么是数据云?”“是不是想成为中国的Snowflake?”
先不展开聊底层数据基础设施技术的演进,我们看一组数字:
美国一家机构的调查显示,年,受访企业中只有12%的企业设有CDO这个职位,而到了年,有CDO的企业已经占比65%。
从12%到65%,这是非常大的提升。它也意味着在美国,企业建立DT团队(或者说DT工程师进入IT部门)、用数据来驱动业务,已经确实发生。
而在中国,这个比例目前还不到5%。
我们坚信,数据这件事,在中国有着巨大的增长空间。
这个增长空间,正来自于数据价值。
我们可以看到,全球企业都在不断地探索数据赋能业务的可能性,从私域运营的小闭环,到全域消费者精细化运营,从门店的数智化,到整个供应链、产销协同的数智化。对于数据价值的讨论,在受疫情影响的上半年,反而更加热烈。
有一位客户和我聊,他说,“其实每个部门都多少有一些裁撤,大环境就是如此,但我们增长和数字化的团队,不减反增。因为大家都清楚,‘开源节流’,不能把母鸡杀掉。”
我们也可以看到,今年在MarTech领域发生了很多并购案(也包括奇点云并购分析云领军者GrowingIO),还有多起投融资事件,它表明了资本的态度。数据智能赛道正在持续发力,从最底层的国产数据库到最上层的SaaS应用,数据价值链上每一个环节的服务商都在前进,为企业客户提供更强大的产品和更优质的解决方案。
套用股市的一个词,“震荡上行”,这就是现在整个社会对于数智化转型的投入走向。
看中美,看世界,看过去、现在和未来,我们有了一个共同的认知:数据将构成社会经济发展的重要驱动力,让数据全面发挥价值是不确定性中的确定。
那究竟如何让数据发挥价值?
从小范围来讲,在业务中可以构建一个个小闭环,譬如用户行为分析,让数据快速撬动业务提升的杠杆;而从大的数字世界来讲,所谓「全面/规模化发挥价值」,则并没有那么简单。
正如StartDT首席战略官,也是和我共事十多年的老朋友才言所说,“把数据作为生产要素,是有成本的,而且一定程度上成本高昂,跟以往大家认识的‘数据几乎零成本复制’完全不同。”
一方面,数据正在超速增长,其增长遵从摩尔定律,18个月就翻一倍。据IDC估计,到年底,全球数据圈将突破ZB。而另一方面,更值得注意的是,其中只有3%的数据将会得到实际分析。这意味着,被挖掘出价值的数据少之又少。
图源:数据时代,IDC全球数据圈
海量的数据,需要转变为海量的数据资产。在被存储成本压垮之前,我们需要有基础设施,来对数据进行规模化的清洗、加工和应用,真正从“原油”中炼出价值。
这就是数据云要做的事情。
作为企业级基础设施,数据云的四个必备能力
从底层的数据基础设施到上层的数据产品应用,用数据赋能业务,看起来是一件自然而然的事情。然而“理想很丰满,现实很骨感”。
在这些年服务客户的过程中我们发现,很多时候客户已经采购了数据产品(例如CDP、MA、BI等),想用数据,却发现数据“脏乱差”,用不起来,也没有安全的流通管道,更不用提数据交换和共享。伴随数智化转型项目逐步落地,还会开始遇到存算成本水涨船高、存算框架日益复杂、异构数据运维成本高昂等难题——以我们的经验为例,一家企业上数据中台以后,数据的增量可能是“”甚至“”,也就是第一年1倍,第二年3倍,第三年可能会有7-9倍的增量,亟需破除多云多引擎管理复杂、运维成本高的困境,否则转型难以为继。
简而言之,企业的数据基础设施不仅需要支持数据向外提供价值,还要找到更简单、更划算、更稳定的方式,让数据“原油”可持续地变为资产,做“高质量”数智化转型,而不至于出现“转型做了两年,结果入不敷出”的情况。
立足当下中国企业的现状,我认为数据云应有四个必备的核心能力:跨平台,云原生,自主可控,数据安全。
跨平台,面向“多云”趋势,实现统一开放
“跨平台”指企业可以使用统一的账号权限体系,对多个IaaS云基础设施、多个Workspace(域)进行管理,实现分级多域、跨云跨平台部署,提升企业的协作与管控效率。
为什么要跨云跨平台?
Flexera年的云状态报告显示,92%的受访企业在IT架构上选择多云战略,企业平均会使用2.6朵公有云+2.7朵私有云。IDG的云计算调研报告也显示,当组织利用多个公共云时,49%的受访者提到的主要目标是利用“最好的平台和服务选项”,其次“节省成本/优化成本”占41%。如果仅放大企业目标,“避免供应商锁定”是第二目标,占比达40%。
在业务、性价比、竞争环境等因素驱动下,“多云”已成为不争的事实。有跨境业务、多流量电商平台业务的企业,其跨云跨平台的需求则更为显著。
作为独立第三方的数据科技服务商,我们就是需要支持客户对云平台的选择更从容、更独立,做出最优、最贴近业务发展需要的选择——实现跨云跨平台部署和数据治理,能做到“哪儿便宜用哪儿,哪儿好用用哪儿”。
除了跨云跨平台,我们也加入了“分级多域”的能力。举个例子,一家大型的快消品集团企业,旗下会有多个子品牌,彼此要求数据做必要隔离和客户隐私保护,同时总部又要进行全面的数据拉通。另一方面,各子品牌还会对接多个流量电商平台,譬如说在阿里云放一个Workspace支持双11,在京东云放一个Workspace支持,再加上几十个线上线下系统的数据的集成和拉通,最终形成了分级多Workspace的云原生数据治理体系。这套复杂的机制,就需要通过支持“跨云跨平台、分级多域”的数据云来进行统一管理。
云原生,核心解决成本和效率问题
“云原生”(CloudNative)其实不是一个新概念,早在二十年前就有这样的提法,十几年前已经成为互联网大厂技术团队的标配。
总的来说,它是在云上构建和运行系统的方法论。最早移植上云的“非原住民”应用程序,往往还沿用私有化部署的技术架构,无法充分发挥云基础设施的优势。随着客户应用的深入,系统必须进行重构,以便跟上业务的爆炸性增长。这也就是我们说的从“上云”到“云上”。
今天底层平台必须走向云原生,核心要解决的是成本和效率的问题。
举2个例子:
第一个例子,云和大数据运维技术含量较高,传统的运维工程师无力承担。但是数据、计算和应用规模还在以每年N倍的速度增长。如果不采用CI/CD而是坚持传统的人肉运维,先别说这种运维工程师的薪酬很高,你可能都招不到这么多合适的人。
第二个例子,客户如果把Hadoop不加修改直接部署到ECS节点上,数据通过HDFS存在云磁盘上成本会非常昂贵。
因此,我们给数据云平台加入了云原生特性,包括CI/CD(持续集成持续交付)、容器化编排、微服务、存储计算分离、元数据管理等技术要素,从而降低运维和存算成本,提高研发和治理效率。
此外值得注意的是,“谁的云原生”?
在“多云”的趋势下,企业很难选择单一云资源,因此“跨平台”和“云原生”这两个特性我建议一起来看,数据云必须能同时做到这两点——尽可能优化架构,降低数据应用在IaaS上的计算、存储成本,同时实现跨云数据治理,帮助客户摆脱某个特定云平台的绑定。这才是企业客户真正需要的“云原生”。
自主可控,就是客户可控
在整个科技界,我们都会发现“自主可控”越来越重要。它意味着中国数智领域的攻关和创新,也意味着“客户可控”。
前文谈到对云厂商的自主选择,是客户可控的一种表现,而在数据云平台底层对大数据集群的管理上,也有客户可控的要求。
美国有一家知名的大数据厂商曾向企业提供免费的大数据集群管理工具,这款工具在我们国内使用也很广泛。去年他们停止了免费版的更新维护,并开始收取高昂的license费用。那这笔突然飙升的费用,是交还是不交?是选择继续跟它绑定,还是另寻自主可控的方案?这个问题在国企、金融、券商领域的企业感知会更明显。
我认为大数据底层产品一定要兼容整个生态和社区,能够持续升级,给客户用最新、最好的。客户自己要能够掌握,而不是问题出现时只能抱着黑匣子傻等。在这之中,也包含着对“国产替代”的要求——关键技术国产化,是DT时代中国企业发展的必然选择。因此我们在数据云底座也嵌入了自主可控的数据存算引擎,它具备“开放的、可替换、可迭代、可掌握”的特性,支持信创环境,来帮助企业实现数据基础设施的“技术可控”和“成本可控”。
数据安全,建立安全合规的“跑道”
这几年,《网络安全法》《数据安全法》《个人信息保护法》“三驾马车”相继施行。在法律法规和“反面教材”的推动下,数据安全开始得到了国内企业的重视:
一方面,企业的数据采集、存储、管理、分析等全链路需要做到“合规”,达到法律法规的要求,保障客户等相关人员的权益;另一方面,数据是每家企业都应该全力保护的独有“资产”,它管理不当将给企业带来巨大损失。
因此,数据安全是企业级数据基础设施必备的一个属性——这是在过去数仓或数据平台建设时极容易忽略的一点。
不同于网络安全和信息安全,数据安全基于“以数据为中心”的立场,安全体系的架构设计侧重于数据分级及敏感数据全生命周期的保护,目标是保障数据资产的保密性、完整性、可用性。从数据安全架构经典的5A方法论来看,应当满足身份认证(Authentication)、授权(Authorization)、访问控制(AccessControl)、可审计(Auditable)和资产保护(AssetProtection)的要求。
数据安全不是要把数据资产装进一个“保险箱”,为了保护而保护。本质上,数据要流通,方可产生价值。而数据安全要做的就是建一条安全合规的“跑道”,让数据资产的开发利用得到保驾护航。
VUCA时代唤醒了数据意识,而我们对数据价值的追求正呼唤新的基础设施,从新的视角解决数据资产的全链路问题:从数据采集、存储,到作为生产要素进入市场,以数据交换乃至交易激发价值,找到增长新奇点。
正如维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中所指出的,“大数据将为人类的生活创造前所未有的可量化的维度”。以“预测”为核心的大数据将依托数据云,帮助我们应对这个时代的未知、多变与不确定。
·关于张金银
张金银,花名“行在”,奇点云创始人、StartDTCEO,20余年资深数据专家。
年,张金银以数据技术专家身份加入阿里巴巴,开启了12年的阿里大数据之路,深度地参与了阿里从数仓到数据平台、数据中台的全历程。他曾任阿里巴巴第一任数据安全小组组长、阿里云大数据事业部总监,是阿里巴巴集团第一个数据仓库建立者,也曾主持建立淘宝消费者信息库(TCIF)。年,创立阿里云数加(现阿里数据中台DataWorks),带领团队将数智能力外化给社会。同时,他也拥有ID-Mapping和数据交换等20多项大数据方面专利。
带着“普惠大数据”的梦想,年张金银创立奇点云,用大数据和人工智能技术赋能商业。年,主导完成奇点云与国内分析云领军者GrowingIO的并购重组,以StartDT“数据云+分析云”助力客户成功实践数字化转型,激活数据价值。
至今,StartDT已服务+客户,覆盖泛零售、制造、金融、政企等领域,以数据驱动增长,让商业更智能。