张瑞飞：大缓存大交换大共享-山财大文件交换

6月2日上午，“2018数字政府与政务大数据建设高层研讨会”在北京国际展览中心召开，本次论坛由国脉数据研究院主办，北京国脉互联信息顾问有限公司、浙江蟠桃会网络技术有限公司承办，国脉海洋信息发展有限公司支持，来自国内政务大数据领域的管理者、研究者、实践者等数百人到场参会。

2018数字政府与政务大数据建设高层研讨会召开

会上，北京神州云联科技有限公司咨询顾问张瑞飞以“大缓存、大交换、大共享”为题发表演讲。他从政务大数据建设趋势出发，深入分析我国大数据发展战略在电子政务上的重点方向，并提出数字中国建设的核心能力是数据交换与共享；又从大数据业务应用的变化出发，阐述了传统大数据平台忽略的大数据交换共享问题以及现有ETL数据处理不适应数据分析业务的缺陷问题，他表示，现有业务需求的变化要求数据实时响应需求，因此必须采取新一代流数据处理架构。

以下是会议现场发言要点实录（根据现场速记和录音整理，未经本人审核）：

一、电子政务大数据建设趋势分析

从国家一些政策来看，2015年开始，国务院发布了《促进大数据发展行动纲要》，提出了开放和共享做大数据治理的思路。2016、2017年，国务院、国家发改委做了互联网、人工智能的强化活动，将人工智能和行业大数据进行结合。去年11月10日，中央政治局在进行第二次集中学习时，提出让信息多跑路，让民众少跑腿，实施数字中国战略。

关于数字中国的建设，今年网信办和发改委评出30个最佳实践案例，在最佳实践里的项目名称中有10个项目提到交换和共享，剩下的项目在内容里也绝对产生了交换和共享思路。我们现在处在一个大数据交换和共享时代，在这个时代，我们如何去实现数据汇聚？如何从数据汇聚走到数据共享、数据交换和使用？我认为这个过程在未来五年会不断地出现，不断通过数据交换、共享释放我们的生产力，通过大数据释放整个工作效率。可以看到交换和共享的威力，从一天时间办一个业务，现在可以缩短到10分钟。

二、大数据业务应用正在发生变化

传统的大数据业务面临着比较大的挑战，第一个是传统大数据的数据源很多。过去我们曾做过一个实验，大数据要服务很多商业、企业和政府的办公系统，我们逐渐建立了一些数据仓库，希望把数据从普通交易数据库放到数据仓进行统一保存和存储，但这一愿景和目标到今天还是没有实现，很多数据还是割裂的，数据仓库能够覆盖的范围很有限。随着大数据平台的出现，我们会看到越来越多的这类问题，更多的系统变得更加分散。大数据平台本身有几十个让我们去熟悉、使用，在传统的数据仓里我们又维护了一套数据系统，数据仓和大数据是很难打通的，在今天也没能实现。90年代提出用一个统一的方法来统计数据，这个目标目前是没办法达成的。

这里面有个核心问题：做数据忽略了数据交换和共享。这个问题以前很少被提到，第一次是Google在2014年提出的，2015年亚马逊提出一个设计理念，支持几十万个数据源不限量。举一个公安的技侦例子，要通过技术侦查手段把互联网信息、现场勘察信息、指纹信息、DNA信息进行技术分析，可以想象公安的数据量在互联网时代面临的数据压力。当出现这个压力时，最难的是如何解决卡口、网监、信令、法制、反恐、事件、接处警、询问、档案等服务问题。

Google在2014年提到一个观点，当时报道世界杯时需要一个新方法，被命名为数据流水线，Google正在给世界贡献一个全新的生态，这个生态不同于早期的Hadoop开源的生态。

2015年，亚马逊看到Google的动作后，跟进了一个策略，提了三个方向，既支持批量又支持实时，这一点很难，目前绝大部分中国企业完全不支持。在2011年的时候提到一个架构，现在国内95右的数据普遍采用的一个技术架构，可能很多数据是放在HDM，有些数据放在一个流水线上，前面做了一个缓存和Hadoop数据进行交互，大量的系统是这样的架构，但它有一个非常大的弱点，不能同时支持实时和批量，实时和批量是两套系统、两套数据库。2011年全球提出这个方向，那是中国大数据兴起的时候，第一基于开源系统，第二基于云服务的生态，第三是灵活扩展，指数据不限量，可以处理PB或更大，都需要一个横向扩展能力，对数据源也不限量，可以是几十个，甚至是几百，但在亚马逊看来是不够的，希望是几十万个数据源。

基于这样的架构，我们在国内的发展态势要弥补过去大数据的不足，我们也没办法颠覆原来的大数据架构，重新构造一套可能不现实，希望有一个新方法来解决它的问题，我们就提出了一个大数据前置的部分，希望建立一个大缓存，这个缓存可以基于内存。缓存的意思好理解，把它处理到PB级，达到这样的技术手段，实现特别大的缓存，在这个缓存上实现数据交换和共享的能力，来支撑和弥补我们以前在大数据架构上的不足。

我们借鉴Google和亚马逊的方式，建设了大数据共享平台，支持各种数据源实时和批量的数据交换。在数据源支持上，可以看到，不只支持数据库，数据源本身不等于数据库。现在这个时代，数据源也包括网络协议，从互联网分装下来的协议，包括中间件或者是各种文件，互联网和公共设备所传递的一些设备，所以数据源不能简单看是支撑多种数据库。实施数据管理，数据同步、对比验证、数据传输、数据交换、数据质量管理，将历史数据和决策数据放到一个平台，所有人都可以在这个平台上进行大数据处理。

以前的大数据来自于不同的源，有不同的格式，所以我们有一个人工的苦活，全部是通过手工编写脚本和验证的方法来实现，要统一成一个格式来进行加工。我们现在有方法变成自动化，通过数据流水线的方式来实现数据从采集到加工的一体化服务。现在亚马逊正跟我们合作，把它原来云上的私有云到公有云手动迁移改造成一个自动的迁移。这种能力在新的数据加工里，有人会叫做边缘计算，在新的架构里更强调通过统一的数据模式、一个数字形态，在数据采集的时候就开始计算，而不是把所有的数据汇集到一个集中的节点或者是集群上进行计算，所以我们赋予了数据计算的边缘能力。

我们打通跨部门的数据桥梁，打通的意义在于解决了一个问题，有时候我们建一个数据平台比较容易，但是建一个数据平台往往发现建了一套存储，并没有用起来，各个部门难以协调，它的意义在于我们没有强行要求数据上收，原来的数据逻辑还在，但是通过一个交换共享中心能够辅助快速处理，并且处理的结果还可以返回，通过修桥梁的方式，我们更容易实现数据的打通和上收。

如果只有海量的交换和集群，可能还是不够。比如中国人民银行总行，在未来希望把3000家银行、银保监会、证监会的数据汇聚到人民银行里，难度可想而知，工行一家的数据可能会把人民银行的数据做宕机，3000家银行的数据汇聚起来是更难的问题，除了有快速的交互，还需要有更快速的处理能力，不是两套系统分别写出来的。

为什么选DataHouse？大家觉得传统的Hadoop是比较慢，它比我们这套系统能够慢到600多倍，Hadoop早期是基于批处理数据，我们希望提供更快速的处理。当处理达到几百倍的数量级，比如在公共服务方面，公安破一个案子，有可能要对案件研判和推理，一个是一周的时间计算出来，一个是一分钟计算出来，这是本质的差别，不只是性能的差别。我们33个节点可以支持2个PB的数据读写，反馈速度是0.01秒来计量。

未来可以有一些演进，我们可以整合在datahouse架构里面。在横向就打通数据流，从源数据到采集、入库、处理，实现了完整打通，没有借助于很多的大数据平台，我们是在一个平台上用S来完成的。

下面是一些案例，我们利用了大数据的能力，也应用了人工智能自然语言处理能力，给公安构造了10套系统，同时我们也写了一个数据交换共享标准。这是在公安局的一个实际测试，对技侦大数据的测试，同时也在交通研究所，把全国交通卡口所有的图像上收，来进行一次统一的数据分析处理。

这就是我们刚才讲到的技侦数据处理，既有DPI的互联网分装的数据，也有通过采集和爬虫的数据，看到分包数据的原始状态，同时也有设备上的网关，如何把不同格式的数据汇聚到一起，最后提出一个服务。这是我们现在这套系统给大家展示的一种能力，不需要先做很多格式转换，做一个临时库、临时表，分别建数据集等，不需要这些东西，这些东西太浪费开发精力、周期也太长，我们在采集的同时就可以计算，计算的同时就可以发布。谢谢大家！