要让大数据在找油、炼油、运油过程中发挥效果,大数据分析平台是必不可少的。如同哆啦A梦的口袋,大数据分析平台中装着数不清的文本、图片、音视频等数据。作为石油企业的数据能力中心,大数据分析平台集聚了生产、运营、销售、管理和系统运行的全套数据,按照标签分类归档。授权访客可以打开“哆啦A梦口袋”找到所需数据,这些数据经过内置算法和模型转换,会以报告或图表等直观形式展现给访客。
石油企业业务构成极为复杂,既有各类监控设备通过物联网采集的实时动态数据,也有各类生产经营形成的过程数据,还有科研等诸多环节形成的研究数据,等等。每个环节的数据,尽管信息化程度不一,却都颇具规模,如百川汇海一般累积了海量数据。
这时候问题来了,“各条河流”的数据成分、规格有别,如有某个项目需要多个数据源,就会难以协同。例如,为了提升客户黏性,客户关系部门想知道近几年的大客户名单,而某些下属企业在全国各个区域均有办事处,各个办事处又与某些大客户均有业务往来。如果想按销售额降序统计出一个客户名单,就得向每个区域的销售部门索要数据,再经过风控、合规、总部领导和地区领导层层审批,终于拿到了全部数据;一通分析之后,发现计划赶不上变化,潜在大客户已经跑去和别人签合同了!
假如上述场景没那么多波折、即刻拿到了数据,但是各个区域的数据质量参差不齐、标准不统一,有的区域用纳税识别号标记客户,有的区域用企业全称标记客户,还有的区域用简称标记客户,甚至有的区域给每个客户设置了唯一识别码。数据量少,还可以对对看;要是以万计或百万计,光是建立各个区域客户名称之间的映射关系就能让你如坠云雾。简而言之,马铃薯在华北叫山药蛋,在东北叫土豆,在江浙叫洋番芋,在广东叫薯仔……要统计马铃薯的全国销售额,你得是个“方言”专家,先把“多重身份”的马铃薯名称统一才能开展后续分析。
即便上述问题都不存在,直接拿到了高质量的数据,还得挑战数据建模、数据训练。Excel、Matlab、Python等建模软件各有千秋,可根据数据类型选择适当软件。不过无论选谁,数据量太大了,建模效率就低了,从白天跑到黑夜的“数据马拉松”每天都在上演。这时,数据部门可以要求升级处理器。只是一个部门升级尚可应付,所有数据部门都要升级就比较复杂。一是要有充足的资金支持;二是重复建设不经济,万一升了级却只是间歇性数据分析需求高,淡季拿着“起重机吊鸡毛”难免大材小用。
可喜的是大数据分析平台化解决了上述问题,它把形态各异的企业底层数据清洗和转化,统一为标准格式,汇入一个池子,并登记好它们的身份信息、按规则把它们安置到适合的存储设备中,授权访客可以自由访问。这么一来,无论是华北的山药蛋、东北的土豆、江浙的洋番芋、广东的薯仔,在池子里相遇后,就都叫马铃薯了。
大数据的分布式存储和分布式计算技术加速了海量数据的读取和处理。以往是一台主机记忆和背诵全部数据,现在是多台主机各自记忆和背诵一部分;原来要建立一个模型,一个处理器计算上百万条数据,现在多个处理器分别计算一点儿,最后把结果整合在一起。记录、背诵、计算和处理的难度降低了,速度就快了,可谓“众人拾柴火焰高”。
因为内置了报表、看板等通用分析展现模型,大数据分析平台的数据可视化效果好,对于常用报表,访客只要一键点击“抄作业”即可。而对于高阶的分析需求,数据专家在统一环境下建模分析,然后在前端可视化展示。“人人都是分析师”不再是一句口号。
大数据分析平台把这种快速读取数据、处理数据的能力共享给了所有人。从此,各部门不必再申请升级自建处理器,只要通过统一入口进入平台,就可以共享池内数据和算能算力。
有了以上特性,在勘探与生产领域,油气公司可以实时监测油气井传感数据,及时发现异常及时调整;在炼油与化工领域,运用数学模型管理工厂数据从而优化生产过程;在工程建设和工程技术领域,借助大数据分析平台汇聚的传感器数据对设备全生命周期进行预见性维护;在销售和客户关系管理等业务领域,可以联动生产数据、销售数据、现金流流转数据等优化客户管理、借贷融资策略和成本管理等。充分发挥数据的“灯塔”作用,为油气公司在全球市场乘风破浪指明方向。
通过大数据分析平台,让石油企业的数据杂而不乱、大而有形,从而更好地支持生产和经营。