计算机技术、软件技术及数据管理技术发展支撑了大数据的今天。大量投资的油气地球物理勘探与探井钻采工作任务就是信息数据的采集与处理、解释应用。在油田的勘探开发过程中,采集积累的地震、地质、化验、钻井、工艺、油藏工程、地面等不同专业数据量达到TB甚至PB级别,数据量巨大,而且信息的增长仍在持续。同时,石油行业的数据涉及学科众多、来源广泛,数据格式从结构化、半结构化到非结构化,包括文本型、数值型、日期型、图片型、文档型等,十分复杂。根据数据信息增长的需要,我们油气行业网络化与数据中心建设、以盆地模拟和油藏数值模拟为代表的数据应用技术也在飞速发展,因此,油气行业长期发展建设形成的数据积累已经成为具有现代特征的大数据。
为了处理与分析大数据信息,石油行业对计算机运算与存储技术的需求十分迫切。从物探、测井数据信息采集、处理和解释,油气盆地油气模拟和油气田开发数值模拟等都对计算机的运算能力和存储能力提出了很高的要求。我所从事的油气数值模拟技术工作,在20世纪80年代初期就已使用IBM-PC机,80年代末期已应用引进的图形工作站,90年代在并行机与计算机集群上进行计算,目前都在应用高性能电子计算机。存储介质也从软盘发展到大容量网盘。我国银河-I第一代每秒上亿次的巨型机,一经研制成功,即在石油行业投入使用。目前,具有高性能处理器、大容量存储能力的计算机硬件技术广泛应用于油气田行业的科研工作中。
应用软件技术发展也很快。以我直接参与研究和应用的油藏开发数值模拟技术为例,模拟处理能力和应用的油气藏类型越来越广,从20世纪80年代的一维模拟、两维两相模拟、三维三相模拟到大规模并行油藏模拟软件,越来越接近符合油气田开发多相流动的实际情况。从几百节点到百万节点的数值模拟计算研究,海量应用数据被输入输出和参与运算,介入模拟计算的影响参数越来越多,数据覆盖的研究区域越来越大,解决油气田区块或整体开发研究问题的模拟计算能力越来越高。研究问题越全面、复杂,研究结果就越准确、模拟计算的真实性就越高。目前,计算应用参数已达到海量数据的尺度。
海量数据的产生,首先带来的是数据的存储、管理与数据共享问题,应运而生的是数据库技术。这是一门新兴技术学科。近年,中国石油、中国石化均已建成数据处理中心,专业化的信息技术队伍在不断壮大,奠定了大数据应用技术的良好基础。
这一切表明,我国石油行业始终跟踪和不断应用信息数据采集处理技术和计算机技术,已经具备大数据的管理与应用能力。石油大数据时代已悄然来临。(文/王大锐)