张瑞飞:大缓存 大交换 大共享-山财大文件交换

6月2日上午,“2018数字政府与政务大数据建设高层研讨会”在北京国际展览中心召开,本次论坛由国脉数据研究院主办,北京国脉互联信息顾问有限公司、浙江蟠桃会网络技术有限公司承办,国脉海洋信息发展有限公司支持,来自国内政务大数据领域的管理者、研究者、实践者等数百人到场参会。

张瑞飞:大缓存 大交换 大共享

2018数字政府与政务大数据建设高层研讨会召开

会上,北京神州云联科技有限公司咨询顾问张瑞飞以“大缓存、大交换、大共享”为题发表演讲。他从政务大数据建设趋势出发,深入分析我国大数据发展战略在电子政务上的重点方向,并提出数字中国建设的核心能力是数据交换与共享;又从大数据业务应用的变化出发,阐述了传统大数据平台忽略的大数据交换共享问题以及现有ETL数据处理不适应数据分析业务的缺陷问题,他表示,现有业务需求的变化要求数据实时响应需求,因此必须采取新一代流数据处理架构。

以下是会议现场发言要点实录(根据现场速记和录音整理,未经本人审核):

一、电子政务大数据建设趋势分析

从国家一些政策来看,2015年开始,国务院发布了《促进大数据发展行动纲要》,提出了开放和共享做大数据治理的思路。2016、2017年,国务院、国家发改委做了互联网、人工智能的强化活动,将人工智能和行业大数据进行结合。去年11月10日,中央政治局在进行第二次集中学习时,提出让信息多跑路,让民众少跑腿,实施数字中国战略。

关于数字中国的建设,今年网信办和发改委评出30个最佳实践案例,在最佳实践里的项目名称中有10个项目提到交换和共享,剩下的项目在内容里也绝对产生了交换和共享思路。我们现在处在一个大数据交换和共享时代,在这个时代,我们如何去实现数据汇聚?如何从数据汇聚走到数据共享、数据交换和使用?我认为这个过程在未来五年会不断地出现,不断通过数据交换、共享释放我们的生产力,通过大数据释放整个工作效率。可以看到交换和共享的威力,从一天时间办一个业务,现在可以缩短到10分钟。

二、大数据业务应用正在发生变化

传统的大数据业务面临着比较大的挑战,第一个是传统大数据的数据源很多。过去我们曾做过一个实验,大数据要服务很多商业、企业和政府的办公系统,我们逐渐建立了一些数据仓库,希望把数据从普通交易数据库放到数据仓进行统一保存和存储,但这一愿景和目标到今天还是没有实现,很多数据还是割裂的,数据仓库能够覆盖的范围很有限。随着大数据平台的出现,我们会看到越来越多的这类问题,更多的系统变得更加分散。大数据平台本身有几十个让我们去熟悉、使用,在传统的数据仓里我们又维护了一套数据系统,数据仓和大数据是很难打通的,在今天也没能实现。90年代提出用一个统一的方法来统计数据,这个目标目前是没办法达成的。

这里面有个核心问题:做数据忽略了数据交换和共享。这个问题以前很少被提到,第一次是Google在2014年提出的,2015年亚马逊提出一个设计理念,支持几十万个数据源不限量。举一个公安的技侦例子,要通过技术侦查手段把互联网信息、现场勘察信息、指纹信息、DNA信息进行技术分析,可以想象公安的数据量在互联网时代面临的数据压力。当出现这个压力时,最难的是如何解决卡口、网监、信令、法制、反恐、事件、接处警、询问、档案等服务问题。

Google在2014年提到一个观点,当时报道世界杯时需要一个新方法,被命名为数据流水线,Google正在给世界贡献一个全新的生态,这个生态不同于早期的Hadoop开源的生态。

2015年,亚马逊看到Google的动作后,跟进了一个策略,提了三个方向,既支持批量又支持实时,这一点很难,目前绝大部分中国企业完全不支持。在2011年的时候提到一个架构,现在国内95右的数据普遍采用的一个技术架构,可能很多数据是放在HDM,有些数据放在一个流水线上,前面做了一个缓存和Hadoop数据进行交互,大量的系统是这样的架构,但它有一个非常大的弱点,不能同时支持实时和批量,实时和批量是两套系统、两套数据库。2011年全球提出这个方向,那是中国大数据兴起的时候,第一基于开源系统,第二基于云服务的生态,第三是灵活扩展,指数据不限量,可以处理PB或更大,都需要一个横向扩展能力,对数据源也不限量,可以是几十个,甚至是几百,但在亚马逊看来是不够的,希望是几十万个数据源。

基于这样的架构,我们在国内的发展态势要弥补过去大数据的不足,我们也没办法颠覆原来的大数据架构,重新构造一套可能不现实,希望有一个新方法来解决它的问题,我们就提出了一个大数据前置的部分,希望建立一个大缓存,这个缓存可以基于内存。缓存的意思好理解,把它处理到PB级,达到这样的技术手段,实现特别大的缓存,在这个缓存上实现数据交换和共享的能力,来支撑和弥补我们以前在大数据架构上的不足。

我们借鉴Google和亚马逊的方式,建设了大数据共享平台,支持各种数据源实时和批量的数据交换。在数据源支持上,可以看到,不只支持数据库,数据源本身不等于数据库。现在这个时代,数据源也包括网络协议,从互联网分装下来的协议,包括中间件或者是各种文件,互联网和公共设备所传递的一些设备,所以数据源不能简单看是支撑多种数据库。实施数据管理,数据同步、对比验证、数据传输、数据交换、数据质量管理,将历史数据和决策数据放到一个平台,所有人都可以在这个平台上进行大数据处理。

以前的大数据来自于不同的源,有不同的格式,所以我们有一个人工的苦活,全部是通过手工编写脚本和验证的方法来实现,要统一成一个格式来进行加工。我们现在有方法变成自动化,通过数据流水线的方式来实现数据从采集到加工的一体化服务。现在亚马逊正跟我们合作,把它原来云上的私有云到公有云手动迁移改造成一个自动的迁移。这种能力在新的数据加工里,有人会叫做边缘计算,在新的架构里更强调通过统一的数据模式、一个数字形态,在数据采集的时候就开始计算,而不是把所有的数据汇集到一个集中的节点或者是集群上进行计算,所以我们赋予了数据计算的边缘能力。

我们打通跨部门的数据桥梁,打通的意义在于解决了一个问题,有时候我们建一个数据平台比较容易,但是建一个数据平台往往发现建了一套存储,并没有用起来,各个部门难以协调,它的意义在于我们没有强行要求数据上收,原来的数据逻辑还在,但是通过一个交换共享中心能够辅助快速处理,并且处理的结果还可以返回,通过修桥梁的方式,我们更容易实现数据的打通和上收。

如果只有海量的交换和集群,可能还是不够。比如中国人民银行总行,在未来希望把3000家银行、银保监会、证监会的数据汇聚到人民银行里,难度可想而知,工行一家的数据可能会把人民银行的数据做宕机,3000家银行的数据汇聚起来是更难的问题,除了有快速的交互,还需要有更快速的处理能力,不是两套系统分别写出来的。

为什么选DataHouse?大家觉得传统的Hadoop是比较慢,它比我们这套系统能够慢到600多倍,Hadoop早期是基于批处理数据,我们希望提供更快速的处理。当处理达到几百倍的数量级,比如在公共服务方面,公安破一个案子,有可能要对案件研判和推理,一个是一周的时间计算出来,一个是一分钟计算出来,这是本质的差别,不只是性能的差别。我们33个节点可以支持2个PB的数据读写,反馈速度是0.01秒来计量。

未来可以有一些演进,我们可以整合在datahouse架构里面。在横向就打通数据流,从源数据到采集、入库、处理,实现了完整打通,没有借助于很多的大数据平台,我们是在一个平台上用S来完成的。

下面是一些案例,我们利用了大数据的能力,也应用了人工智能自然语言处理能力,给公安构造了10套系统,同时我们也写了一个数据交换共享标准。这是在公安局的一个实际测试,对技侦大数据的测试,同时也在交通研究所,把全国交通卡口所有的图像上收,来进行一次统一的数据分析处理。

这就是我们刚才讲到的技侦数据处理,既有DPI的互联网分装的数据,也有通过采集和爬虫的数据,看到分包数据的原始状态,同时也有设备上的网关,如何把不同格式的数据汇聚到一起,最后提出一个服务。这是我们现在这套系统给大家展示的一种能力,不需要先做很多格式转换,做一个临时库、临时表,分别建数据集等,不需要这些东西,这些东西太浪费开发精力、周期也太长,我们在采集的同时就可以计算,计算的同时就可以发布。谢谢大家!

推荐阅读