当我们跟一些企业信息化管理者聊起应该尽早的考虑数据的利用,要对数据做整体规划时,会经常听到这样一句话。
“我现在业务都还没做起来,还不到考虑数据利用的时候”
这一句话代表了很大一部分企业对于数据利用的认知,那就是,数据利用是从先有数据开始的,而数据是在应用建设之后存到数据库里的,所以先建设应用,然后等数据库里有了数据后,在考虑如何利用数据。
听上去,这个逻辑完全正确。
但是其实这就是很多企业存在的首要的对于数据利用的误区:”先建设应用,再考虑数据利用“。
如果用这样的思路去建设,过了一年以后,往往这个企业就会立刻提出新的问题,“多个应用系统之间的数据不打通,不对齐,不一致,数据用不起来”。
这个误解,是根本上不充分理解数据利用的两个本质:
第一,数据是客观存在的,不取决于你建不建设应用
一个企业,只要业务在运行,哪怕它没有建设任何系统,它的数据都是在实时产生的,只是你没有把它采集起来而已。
数据是业务在数字化世界里的构成原子,业务流程和行为会时刻产生各种数据,而不是必须要建设应用这些数据才产生的。举个例子,当快递员接到一个快递订单的时候,发件人,收件人,货物类别,发货地,发货地,运输工具类型,距离等这些数据就已经产生,并且会驱动这个快递的走向。有没有信息化系统的支持,只是改变了这些数据的记录和传递的手段是一张纸还是一个网络而已。这些数据是客观存在的,他不会因为信息化系统本身而改变。
我们要从本质上认知到,数据是业务在数字化世界里的投影模型,它是业务的镜像,是客观存在的。
只要有业务,那么就存在对应的数据。应用只是把数据通过软件采集到存储设备里而已。
第二,数据利用的规划要早于应用和流程的建设
我们在建房子之前,就要做整体设计,规划出一栋大厦的各种利用场景,只有这样才不会出现一个不能被进入的房子。
现在,每个企业都意识到,数据是企业的核心资产,应用是采集和利用这些资产的工具。为了更好的在数据采集之后得到充分的利用,每个企业必须要在应用和流程的规划之前,完成数据利用的规划。
这就包括企业的数据资产目录的规划设计,企业的数据利用场景的规划和数据的存储,处理分析这些数据的技术平台的需求规划等。
Data First,在系统还没有建设的时候,做好了数据的蓝图规划,完成了各个应用系统的数据分布全景图,企业就能规避数据孤岛的存在。
所以,如果你现在还没有建设应用,那么恭喜你,这是最好的规划数据利用蓝图的机会,赶紧开始吧。
“我们现在的数据很少,只能叫小数据,所以还谈不上数据利用”,这也是一个典型的数据利用的误解。
我第一次听到这句话就是在B2B2C的零售企业。的确,传统的通过经销商为主要渠道的品牌商,往往没有建立自己的电商体系,所以最终消费者的行为数据拿不到。他们有的就是Sell In的数据,而Sell In的数据往往量不大,并且维度不多,所以利用价值有限。
但是,现在的这个企业正在做的事情就是通过一个个的小程序,小应用,建立各种和终端消费者,客户的触点,从而获取各类数据,单个的看都是小数据,量不大,维度也不多,但是,当这所有的点连接在一起,就构成了一个丰富,多样的用户数据全景。
这个企业的业务负责人笃信,在数字化时代,谁拥有更多的数据场景,谁就能够拥有更强的竞争优势。
这个事例充分的说明,也许现在你的业务模式决定了你并没有丰富的数据,但是,你依然要通过各种应用创新来多渠道,全方位获取用户,消费者的数据。而要建设什么应用,获取什么数据,获取的这些单个点状数据间如何构成相互联结,组合出数据场景价值呢?
这就是需要在构建应用之前有数据规划,勾勒出一个数据场景地图,从而沿着这个地图去建设个中小应用。
过去的应用系统被划分为OLTP和OLAP,在线交易型系统和在线分析型系统。所以,往往一看到这个应用本身是一个交易型的软件,按照传统的架构,那就是OLTP系统,所以往往不会用到一些OLAP的技术。
但是,目前的情况则发生了巨大的变化。
拿约车调度系统来讲,按照传统的划分,这是典型的交易系统,创建订单,分配司机。但是,如果要能够支撑每秒几万单的调度分配,用手工分配的方式是不可能的,这个调度系统需要具有实时数据分析能力,而这里面价格确定和路线的规划的部分,又需要参考历史的相关数据分析结果。这样一来,这个典型的交易应用是被数据驱动的,它的底层和和核心其实是批量数据分析和实时数据处理。
未来的所有的应用都会是这样,那就是OLAP在支撑着OLTP系统的每一个决策和行为,从而成为智能的应用。
数据技术正在逐渐重构所有的传统流程类应用,让他们成为数据驱动的系统,从而变得更智慧。
一提到数据项目,很多人脑子里第一个想到的就是算法模型,似乎只有做研究的,做算法的,做人工智能的才是做数据的。
所以,现在有一类观点,认为信息化产业里分为做算法的和做软件的,而只有做算法的才是做人工智能和数据的。
这是一个典型的误解,将算法与软件工程割裂开来。就像不久前,一个长期合作的客户用一个固有印象,”思特沃克不是做人工智能的“,就否定了我们的一个机会,这就是对于人工智能应用的误解。
我们用下面这张图来体现算法和人工智能(数据科学)的关系。
人工智能的最底层是由各种算法组成的,但是,目前行业里所有人使用的常用算法,都是公开的,而真正研究和产出这些算法的,是学术研究机构。
本文系作者在时代Java发表,未经许可,不得转载。
如有侵权,请联系nowjava@qq.com删除。