“数据王国”——大而无形的大数据

2025-02-24 14:48:00

现在是数据王国的时代,数据王国的“公民”由数字、文字、图像、声音任意组合,千人千面。

地球上的每个人及其所做的每件事,都意味着数据王国诞生数不清的新“公民”,可谓“海量”。为此,有人把数据王国的“公民”数量称为“大数据”。

大数据到底有多大?仅从数据规模无法定义大数据。2008年,聪明的人类用“4V”概括了大数据的特征:Volume(数据规模:大量)、Variety(数据类别:多样)、Value(数据价值:低价值密度)、Velocity(更新速度:高速)。

大数据的第一个特征是数量巨大。

数据每天都在激增,一个省的月通话记录数据高达0.5~1拍字节(PB),有一些网站每天处理网页的数据达到10~100拍字节(PB),还有些购物平台的交易数据量高达100拍字节(PB)。历史上全人类说过的话数据量大约是5艾字节(EB),需要500万台万亿字节(TB)量级个人计算机才能装下。再看看石油行业,几十万口油井的监测设备实时产生的数据、炼油化工企业各类分析测试的数据、加油站产生的数据、考勤系统产生的数据等,总量非常巨大。

大数据的第二个特征是种类繁多。

数据被分为结构化数据、半结构化数据和非结构化数据,易于存储的文本形式是结构化数据,而音频、视频、图片订单、地理信息等都属于非结构化信息,后者对数据处理技术提出了更高要求。例如,油藏数值模拟中涉及的数据种类繁多,包括物探、测井等测试数据,也包括油井生产数据,还有井口和地面的各类测试数据、地面和井筒装置数据、油价等市场信息。

大数据的第三个特征是价值密度低。

价值密度高低与数据总量大小成反比,时长为一小时的监控视频片段可能仅含一两秒有用数据。就像油井井口的监控数据,正常生产时数据一直稳定不变,只有出现问题时才会有波动。因此,要想在海量数据中找到自己想要的数据,就需要通过强大的算法迅速完成数据的价值提纯。

大数据的第四个特征是处理速度快。

中国信息通信研究院预测,到2035年,全球数据产生量将达到2142泽字节(ZB)。面对如此海量的数据,“天下武功唯快不破”,因而处理速度快是大数据最显著的特征之一。

讲起数据王国的故事,一定绕不开云计算。云计算是提供基础架构平台支撑大数据的应用和运行。具体而言,大数据需要的云计算技术包括虚拟化技术、分布式处理技术、海量数据的存储和管理技术,还有非关系型数据库(NoSQL)、实时流数据处理、智能分析技术等。在企业应用中,大数据偏于业务层,云计算偏于技术层。

大数据和云计算如同一对血脉相连的双胞胎,总是形影不离。如果说大数据是油,云计算就是燃油发动机。没有大数据的信息积淀,云计算的能力再强大,也难有用武之地;没有云计算的处理能力,大数据的信息积淀再丰富,也终究是无用之才。大数据和云计算一结合,既能提供更多基于海量业务数据的创新型服务,又能通过云计算技术的不断发展降低大数据业务的创新成本。

数据王国在不断壮大,人人都是数据的生产者,更是使用者。生逢大数据时代,基于大数据做决策,更注重全样本而非粗糙的抽样,更聚焦效率而非准确性,更在意相关性而非因果性。例如,沃尔玛在分析销售记录时发现一个有趣的现象:在美国的飓风季节,蛋挞和防灾物品的销量同步剧增,看似相差十万八千里的两类商品竟有了千丝万缕的关联。工作人员把蛋挞货架转移到了防灾物品销售区域,蛋挞销量再度提高。如今,加油站销售预测、医院挂号预判、网站好物推荐、企业售后优化等,都在借助大数据分析实现精准预测。

地壳的运动是数据,油田的生产也是数据,数据无处不在,数据王国无国界。大数据时代,人们要做的就是学会与数据相处,通过吸收大量的数据产生新的智慧。

阅读原文