2017年3月,在工业和信息化部的指导下,为期两天的“2017大数据产业峰会”在北京国际会议中心召开。北京中联润通信息技术有限公司总裁贠瑞峰在大数据产业创新发展高峰论坛上发表了题为“大数据产业协同创新模式初探”的演讲。
中联润通从2015年开始,一直在参与国家发改委的互联网大数据分析中心,从最初的规划设计到现在的建设和后期的运营和不断的升级,在这个过程中整个架构从最早的设计到现在已经更改了七八版,整个过程中从最初摸着石头过河,到现在实现了“4+2”的体系,从架构上,“4”是底层的IaaS到PAAS、SAAS一直到DAAS,按照这样四层结构把整个大数据中心的架构解耦,在运行过程中可以非常容易地按需扩展计算能力,扩展存储能力,接入更多的应用,接入更多的数据源等等。
两大框架体系,一个是大数据的标准规范体系,另外一个非常关键是大数据的安全保障提高,按照这样的4+2的体系,国家发改委大数据分析中心在过去两年的时间为国家的相关领导以及省市领导提供了几百份的关于宏观经济运行的监测和预测的相关分析报告,形成这些报告的过程中我们不断的探索,尤其是国家发改委互联网大数据分析中心在国家信息中心一块牌子下面,在整个国家信息中心的资源体系之内,我们不断地探索怎么样有效的去形成指标化的体系,尤其是里边最大的不同是我们不仅仅要结合业务数据,非常关键的是这个中心是互联网大数据分析中心。大数据为什么这几年变成了真正的大数据,本身最最主要的原因是因为互联网、互联网+等等这样的趋势带来的变化。怎么样能有效地在互联网的范畴内抽取出所谓的钻石出来,给我们带来的挑战还是非常大的。
下一个案例是我们在国家已经批准的八大大数据综合试验区,对于大数据如何在本地推动,不仅仅是大数据的产业落地发展,更重要的是利用大数据产业的发展去推动我们的传统产业,推动更多的新兴产业和传统产业的创新和升级。在这个地方我们借鉴了过去在国家部委层面做的大数据架构,但是在这里边有很多不同,很多新的创新。左侧可以看到我们希望在地方政府在这个领域采用民办的形式,地方政府是投入的阶段,投入到基础、技术、数据,数据在哪里?数据能不能被有效的采集回来能够汇聚能够融合?非常关键的就是算法、一些控件,在这层能不能是开放的,能够让更多的专家、更多的产业参与进来。我们分为三类,一类是对政府to G,一类是对产业的to B,还有一类to C,对这三个领域我们的大数据应用如何能够有效地支撑他们的需求。
政府在大数据产业方面投入这么大,从党中央一直到各个地方政府,在过去两年来所有国家的纵向部委,几乎所有省市一级都已经相继出台了促进大数据发展的相关政策、相关条例,我们利用大数据的同时不仅仅是为了大数据,更重要的是在这个过程中我们怎么能够形成大数据相关的产业以及利用大数据推动传统和新兴产业的升级发展。
能够按照有效投入的架构,从技术层面,从数据层面,从应用和业务层面能够持续的投入的话,其实在右边就有更多的产业协同的机会,这也就是“产、学、研、政、用”五位一体的发展。这些平台这些技术其实可以有效的支撑非常多的其他企业,可以有效支撑大数据产业的集聚,有效支撑创业创新,也可以支撑大数据的小镇建设、主题公园建设等等。再往上形成了这些数据接口,当它开放出来的时候这些产业里集聚的企业和核心公司都能够发挥他们在行业内或者业务内的特长,能够衍生出更多更有效的能够服务社会的应用。
由于中联润通参与了这些项目,贠瑞峰总结了一下在大数据产业的实践过程中小小的思考。工信部谢司长在“十三五”规划里谈到的希望2020年大数据相关产业的规模突破1万亿,恰恰又符合了工信部十三五规划的产业规模的预测。大数据产业前景无限,是一个光明大道,在2017年按这个测算的话有3517亿元的大数据市场规模,如果按照其他的口径,500亿甚至上千亿的市场规模。
在这样的市场里边,越光明的大道走起来并非是坦途。依据市场上的数据,有四个数字,第一是59%,59%能够采集到能够利用的或者我们能够看到的数据其实是无效的,你拿到的70%的数据过于复杂,要在上边有一个非常有效的算法和有效的团队才能把过于复杂的数据开放出来为我所用。85%的技术架构无法适用数据量的增加和复杂性的增加,这是目前无论是政府还是大中型企业确确实实面临的困境。最后一个数字稍微有些夸张,但是如果我们真的仔细想一想的话,其实这个数字也不是那么夸张,98%的企业甚至政府其实无法及时准确的为业务提供正确的信息。这些数据告诉我们在大数据这个市场,还是有很多大坑小坑需要我们跨过去,还是有很多问题需要政府、企业大家一起来克服。
第一,做大数据站在现在面向未来,我们要考虑大数据的实时性,我们更要考虑到如何利用它把现在对未来的不可预测转为可预测。第二,价值创造,大数据最终一定要为无论是政府、企业、社会创造价值,价值稀薄规律,当你的数据量越来越多的时候你未来新增这些数据的单位价值其实是递减的。价值的累增规律,一部分数据被越来越多重复利用的时候它的价值是不断累增的。第三,跨越时空,过去做业务、做应用、做系统的时候都是关注功能,要实现什么样的功能,要用什么样的流程把它做下来,今天更重要是以数据为核心,所有新的应用和业务如果称之为大数据相关的业务或者应用,它必定是数据的消费者,同时它一定是数据的生产者,而且是有效数据的生产者。这些数据产生了之后,它具备共享性,这个共享性与我们过去其他的生产资料有很大的不同,它的时空不唯一性,同一段数据同一份数据同时在同一时间、同一空间可以被很多应用或很多业务、很多人有效的利用。无论做什么,当面对客户的时候,当面对业务的时候,很重要的就是一定要以业务为目标,要服务业务目标。
第二,应用的场景,真正在应用的时候,大数据产业、大数据应用一定是数据消费者,同时一定要做数据的生产者,大数据应用本身才能真正不断的累计出更多可能今天预期不到的价值。关于技术体系,Hadoop等等,在过去的实践中认为我们采用拿来主义,如果今天美国或者其他国家在某些方面已经做了好的东西,我们希望能够借鉴,希望能拿来用。当然在中国本土的企业里,我们也希望跟他们合作。横向和纵向的这些分工上我们的架构都是开放的,我们希望能够跟业内在业务领域或者技术领域、算法领域做得非常领先的业界同仁一起实践,一起改进在大数据方面的实践。
但是,不要仅仅是拿来主义,这样就回到了我们过去的做集成的阶段,一定要注重在这方面的研发和投入,因为毕竟大数据的应用本身对所有客户来讲无论是政府还是企业都是一个摸索,不断的摸索不断的进化的过程。我们希望在这个过程中有我们更多研发的投入,无论是技术还是在业务应用方面,能够帮客户实现快速的进化和迭代。
从2015年到2016年,开源软件的使用到商用,商用包括政府、企业,比例的增加完全超出我们的想象。开源软件为主流,但是并不是一个开源软件拿来就能用的,开源软件的架构本身是开放的,在这个过程中我们希望融合和开放,开放能够带来更多的融合的机会,融合的过程其实就是促进我们在这个产业里的创新。
第三,其实大数据今天能够有这么快速的发展离不开过去互联网的快速发展,离不开云计算的快速发展,在这个过程中,对于比较激进的市场规模,专业人才方面是非常稀缺的,无论是地方政府还是地方产业园,都在发展大数据产业的同时解决人才的教育培训问题。人才是关键,教育培训体系要跟上。