当大部分人还没弄清楚大数据是什么,一部分数据商人已在琢磨如何利用它盈利,还有一部分企业正在大胆尝试和快速野蛮生长,并尝试制定和引导正在拟定的行业规则。一旦数据价值被完全释放,“特别是政务数据,完全可以成为地方政府继土地资源之后的第二大资源”
需要提醒的是:大数据掩盖了价值观,或许未来不断挑战法律与道德底线。数据从来都不可能是“原始”的,数据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。
作者:周慧、宋兴国
源自:21世纪经济报道
原题目:大数据万亿市场谁来搭建?地方政府将与企业合资
文后附文阅读提示:大数据干不了的几件事
当大部分人还没弄清楚大数据是什么,一部分数据商人已在琢磨如何利用它盈利,还有一部分企业正在大胆尝试和快速野蛮生长,并尝试制定和引导正在拟定的行业规则。
“未来的石油”、“万亿产值”,和大数据捆绑出现的高频词,也难以描绘这个行业有多火爆。
2014年以来,资本市场对大数据产业展开了狂热的追逐,中央高层亦多次在重要场合提及鼓励发展大数据产业,地方政府更是积极布局大数据园区和交易所。
大数据产业一次次被推到风口,这个被充分曝光的行业,或许自己也有些眩晕。
记者采访发现,当大部分人还没弄清楚大数据是什么,一部分数据商人已在琢磨如何利用它盈利,还有一部分企业正在大胆尝试和快速野蛮生长,并尝试制定和引导正在拟定的行业规则。
从事大数据行业的企业,包括学界和地方政府,都在憧憬着人类从IT进入DT(Data Technology)时代的未来。
记者通过采访北京和部分二线城市的大数据商人,剖析正在快速生长的新兴企业。参与国内首个大数据“十三五”规划的企业及专家,为我们解读大数据的风口预期、规则瓶颈以及地方政府的大数据产业冲动。
大数据商人的预期:政务数据——地方政府下一个“土地资源”
2014年夏天,中部二线城市一位局长的办公桌上,放着一堆“大数据是什么”的资料。“这是给高层的学习资料。”该局长告诉记者,“别人都在做大数据,我们领导不能不懂。”
2015年,地方大数据产业园区、大数据产业基金、大数据交易所如雨后春笋涌出。
“把大数据产业发展比做十公里的长跑,当前产业还在1.5公里的地方,未来完全有可能成为万亿级市场。”8月11日,数据堂创始人齐红威告诉记者。在数据堂新搬入的中关村(000931)办公室里,几个小会议室坐满了面试者和合作洽谈人。
齐红威刚接待完一位来谈合作的互联网金融创业者,对方希望他们以“数据资产”入股。他表示,如果说2014年是大数据元年,那么2015年将是大数据产业落地的元年,特别是政务大数据领域。
迎着风口,他的企业在2014年获得1300万元的Pre-A轮融资;12月在新三板挂牌,成为新三板第一家大数据企业;2015年5月完成了由达晨创投领投的A轮融资,当下第三轮融资已基本敲定。
中关村的另一家大数据企业——九次方大数据公司,也在这两年发展迅速。其创始人王叁寿还有另一个身份,贵阳大数据交易所执行总裁。2015年,在贵阳大数据交易所成立后的4个月时间,王叁寿已先后接待了国务院副总理马凯以及一些部委官员,还有数十个省市领导的带队考察。
和齐红威、王叁寿一样,大数据商人们近期行程满满,除了接待各级别官员的考察,发表演讲,还有对接各种合作洽谈和招人。最近,王叁寿和数据堂的另一位高层,作为企业代表参加了工信部组织召开的大数据产业“十三五”发展规划编制第一次工作会议。
王叁寿一直认为,一旦数据价值被完全释放出来,将会形成巨大的产值。“特别是政务数据,完全可以成为地方政府继土地资源之后的第二大资源。”他说。
他们的信心并非凭空而来。2015年初,国务院下发《关于促进云计算创新发展培育信息产业新业态的意见》,提出要加强大数据开发和利用,充分发挥云计算、大数据在智慧城市建设中的服务支撑作用,加强推广应用,挖掘市场潜力,服务城市经济社会发展。
重点在公共安全、电子商务等领域,开展基于云计算的大数据应用示范,支持政府机构和企业创新大数据服务模式。
7月1日,国务院下发《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》,明确了运用大数据提高市场主体服务水平;运用大数据加强和改进市场监管等五个方面的工作重点,并发布了加快建立统一社会信用代码制度等26项具体任务。
7月31日,工信部信息化和软件服务业司组织召开了大数据产业“十三五”发展规划编制第一次工作会议。会议提出,要在工业大数据、大数据资源开放共享、大数据交易、大数据安全、大数据标准、大数据行业应用等领域开展专题研究。大数据产业发展规划要以创新应用为驱动,围绕大数据产业培育这一核心,抓好大数据产业关键能力培养、大数据创新应用培育、大数据开放共享环境建设等方面工作,做好与国家各项规划部署的衔接和支撑。
在这期间,各地也纷纷出台当地发展大数据产业的相关规划。其中,贵阳市于2014年5月印发《贵阳大数据产业行动计划》,提出到2016年底,贵阳大数据相关产业规模要达到540亿元,并已于2015年4月正式挂牌运营贵阳大数据交易所。
大数据平台跑马圈地:迅速扩张以引领行业标准
7月上旬,在武汉的一个大数据企业总裁沙龙上,参会企业负责人每人拿到一张调查问卷,内容包括如何定义大数据企业标准,以及发展大数据产业的建议。
参与的企业包括电子信息服务企业、传统企业的信息服务公司,还包括智能马桶盖、无人机制造企业等等,记者现场采访多家企业,大多数企业负责人表示,目前对大数据企业的定义比较模糊。
关于大数据的定义,业界尚未有统一说法。按照工业和信息化部电信研究院的定义,目前大数据产业生态中,主要包括大数据解决方案提供商、大数据处理服务提供商和数据资源提供商,分别向大数据的应用者提供大数据服务、解决方案和数据资源。
“大数据领域,各个环节的企业互相依存,而不是传统产业的单向依存。所以叫生态链,而不是产业链。”齐红威表示。在大数据行业内,市场主体的供求关系比较复杂,数据的供给方往往也是需求方,难以形成具有简单上下游关系的简单产业链条。
同时他特别提到,行业规则的缺失,是当下大数据产业发展的最主要瓶颈之一。大数据企业对规则和标准的渴望可见一斑。
记者采访发现,不少先行的企业,已经在尝试制定包括数据权属、估价标准在内的行业标准。不止一位企业人士表达了“希望迅速扩张发展,并引导或引领数据交易行业标准”的野心。
由北京数海科技有限公司牵头,于2014年2月20日发起建立的中关村数海大数据交易平台,是国内首个面向大数据交易的产业组织。在该平台官网的法律法规页面下,记者只发现了该平台从去年6月起开始实施的《中关村数海大数据交易平台规则》,“本规则是由中关村大数据交易产业联盟指导,联合工信部电信研究院等科研机构,共同制定的关于平台相关交易活动的指导性文件。”
在贵阳,大数据从业者们也在做着相似的工作。2015年5月26日,贵阳交易所在贵阳举行的数博会上发布了《贵阳大数据交易所702公约》。公约总则里写道,“……该公约由贵阳大数据交易所聚合了相关大数据企业、行业协会、投资机构、科研院所、政府部门等共同制定,希望通过该公约推动制定与推行大数据交易标准、交易安全、监管监察等规则,从而推进大数据交易的发展……”
王叁寿表示,贵阳大数据交易所是全国首个大数据交易所,未来中国应该只有一个统一的交易所。“天下武功,唯快不破。”他再次向记者强调了他的观点,贵阳已抢占先机。
企业方面,除了数据堂、数海、贵阳大数据交易所,还有亿赞普科技集团公司也正在构筑“世界级互联网大数据平台”。
国内已有多地政府正在筹备大数据交易平台,今年7月武汉集中揭牌了长江大数据交易所(筹)和东湖大数据交易中心;江苏方面称,江苏省大数据交易中心也即将获批;重庆正在打造重庆大数据跨境电子商务平台。
与企业不同,研究界对大数据产业规则的制定则抱有更谨慎的态度。一位参与大数据产业“十三五”规划制定的专家向记者表示,大数据交易平台作为大数据交易的第三方,在交易过程中应该起到制定规则和标准的作用,具体职责主要是撮合交易和数据审查,对于数据内容本身不应该有更多的干预和参与。
他还表示,也不能完全反对将大数据交易平台交给行内人士操作,“把这样一个新兴事物交给政府或第三方都很难成功,但这需要制定更明确的职责界定,平台只能有平台的功能。”
大数据权属和安全:不触碰和销售个人数据为底线
在业内人士看来,目前影响大数据交易和商业化的瓶颈是,大数据的产权界定、交易规则以及一些法律规范等。国务院发展研究中心技术经济研究部副部长田杰棠表示,大数据产权的界定是大数据交易和商业化的前提。
从国家层面密集出台的政策,到“十三五”规划的编制,围绕这个行业的规范正在建立。参与规划制定的专家和企业均对记者表示,即使在“十三五”规划完整出台后,大数据产业行业标准和相关的法律规范也很难在短时间内完成,特别是在立法上。
参与规划编制会议的王叁寿透露,由于大数据产业需要与其他行业紧密结合的特性,不同行业的大数据应用需要的标准都有不同。工信部编制规划,首次提出了将大数据产业分为金融大数据、能源大数据、医疗大数据等三十多个分支行业,并将针对不同行业分别进行大数据资源开放共享、大数据交易、大数据安全、大数据标准、大数据行业应用等方面的产业规划与课题研究。
在调查中记者逐渐发现,如果说制定完善的行业规则体系是大数据产业发展所必需的外部条件,在大数据产业内部,还存在一个内生的、亟待解决的博弈焦点——数据产权的相关问题,特别是在政务数据方面。
按照获取方式的不同,大数据可以分为线上数据和线下数据。在线下数据中,政府所掌握的大量政务数据由于涉及个人隐私和国家安全,其使用和权属一直是大数据行业关注的焦点。
长期研究大数据的田杰棠告诉记者,其实数据交易很早就存在,只是以前需求没有现在这么大,也没有公共的交易平台,很多交易处于灰色地带。
目前国内已有不少个人信息被买卖的案例。比如,报考公务员考试后,就开始收到考试培训推销电话;订车后就开始收到车险推销电话。据媒体报道,这类数据交易,通常属于黑市交易,依据详细程度、时间、地区等被赋予不同的价位。
当下国内已经出现一批大数据交易平台和数据服务公司,但是围绕数据获取与收集的红线在哪里,数据的权属是谁,如何获取数据,尤其是涉及大量个人隐私的政府政务数据,仍存诸多灰色地带。
记者采访多家大数据企业,其对数据获取,特别是非公开的政务数据方面,获取手段各显神通;在规避数据权属问题、个人隐私和信息安全方面,也有各自的规避办法。
以数据堂为例,在获取数据上,齐红威强调目前其核心优势是获取线下数据,他们利用一款众包平台APP,让40余万兼职众客来完成,比如人脸图像、购物小票、语音等;另一种方式则是采购;对于政务数据则是采取与政府合作的形式。
在数据权属方面,数据堂一再强调自身的“数据银行”身份。所谓数据银行,就是在经营数据堂的交易平台过程中,一方面吸收“存款”,获得产权仍属于数据生产者的原始数据;一方面发放“贷款”,将整理后的标准化数据提供给数据的需求方。
数据银行通过将零散的数据整合成为有价值的标准化数据,实现数据使用权的转移,从而避免触碰数据的拥有权和产权问题。除开数据平台,在数据堂自身的数据定制业务中,其数据获取方式也在尽量回避产权的问题。
比如,帮助互联网金融企业建立个人征信体系是数据堂的重要业务之一,在相关敏感数据的获取上,数据堂采用的模式是将数据清洗程序直接在政府部门的机房和场地进行,经由政府部门检查后将数据分析结果带出,这同样是在回避接触和拥有底层数据。
王叁寿的判断则更加乐观。他认为,随着数据价值的不断释放,数据将会是政府手中的新资产,是可以与土地资源并称的具有无限循环性的资源。而贵阳大数据交易所要做的,就是推动政府数据的资产化。目前,已经有十余个地方政府在贵阳交易所开了账号,其中广东省已经参与了实质性数据交易。
记者采访发现,大数据企业规避风险,都有一条约定俗成的底线,“不触碰和销售底层数据”,即不会涉及单个人的具体数据,除非获得个人授权。
政府数据开放尴尬:内部数据打通困难重重
大数据产业野蛮生长的同时,看上大数据产业的地方政府,也开始密集出台相关政策。
以江苏盐城为代表,该市刚刚提出未来五年盐城大数据产业园将引进大数据企业500家,实现产值500亿元,带动相关产业规模超3000亿元;盐城市还将设立10亿元的大数据产业专项引导基金和10亿元的风投基金——“盐创母基金”,并在运行成本、人才引进、激励创新等方面提供一系列政策优惠。
武汉市于2014年提出,到2018年,培育年营业额超过100亿元的大数据企业5家,50亿-100亿元的大数据企业10家,新上市公司10家,全市大数据产业实现产值达2000亿元,带动相关产业新增销售收入过万亿元。
根据贵州省的规划,到2020年,贵州大数据产值规模达到2000亿元,相关产业产值4500亿元。贵阳市还提出,投资120亿元建大数据产业园。
然而,对于大多数地方政府来说,大数据产业园区仍处在布局数据中心的阶段,相应的大数据挖掘服务类企业布局还没有开始。一位多次参与地方数据行业调研的业内人士告诉记者,前两年在内蒙古等一些地方调研过数据中心,部分地区的数据中心和园区有闲置的情况,甚至有的地方在用来放羊。
记者近期参观过华为在某地级市的大数据中心,该项目作为当地新区的明星项目,被视作未来发展大数据产业的基础。该市一经济部门负责人介绍,数据中心对于他们来说,相当于数据仓库,接下来他们将围绕大数据的应用挖掘等进行招商。
上述人士表示,目前国内大数据产业的发展处于起步阶段,如何挖掘数据,加工数据,实现数据商品化,是他们很看好的领域,未来潜力很大。
对于是否担心数据中心过剩和闲置,他表示就目前阶段来看还不存在这样的问题;未来可能确实会有大批的数据中心出现,但是否过剩还要从届时的市场需求判断。
“随着工业4.0和互联网+的发展落地,生产生活每一秒都会产生大量的数据,未来对数据存储的需求将是难以想象的。”他表示,目前地方大数据应用还未激活,但各地需要做好提前布局和招商。
田杰棠建议,地方多出台支持大数据产业发展的指导性意见,重点做好数据开放,营造大数据发展的良好环境;同时少做规划,少提目标,避免盲目跃进。
同样的,在不少大数据商人看来,地方政府发展大数据产业的当务之急,就是转变思维,逐步开放数据。事实上,一些地方政府虽然高喊发展大数据产业,但政务数据的开放一直处于雷声大,雨点小的阶段。
齐红威表示,“我现在心里只担心两件事,一是政府开放数据的力度够不够大,速度够不够快;二是大数据市场是否会受到太多外来干预,除开这两点,我们有信心实现大数据的商业价值和社会价值。”
王叁寿也多次提及希望政府加快数据开放力度,同时他们也在积极搭建平台,推动政府政务数据开放。
据记者了解,当下不少地方政府针对政务数据开放,如何打破部门之间的信息孤岛等,已经在探索的路上。武汉市信息办一位负责人表示,武汉将建设全市统一的市政务云数据中心,首先将内部打通多个部门之间的数据,用数据代替市民跑路。
上述负责人告诉记者,目前该项工作由市委书记牵头协调,正在全力推进中。不过其中涉及部门利益协调和数据格式统一的问题,推进难度很大,如何打通需要逐步探索。
湖北一地市发改委负责人也表示,目前地方正在全面推进政务数据开放,但仅各部门之间的内部数据打通和开发已经困难重重;至于对涉及信息安全的公共数据开放,则还有很远的路要走。
对此田杰棠认为,国家在很多地方做智慧城市试点和改革创新试点,对于大数据开放,完全可以择地试点,在试点的过程中尝试拟定规则规范。
数据商对此表现出非常大的积极性。一位数据企业负责人告诉记者,他们的目标是在未来和地方政府成立合资公司,以第三方机构的名义,为政府数据开放提供专业服务。
“未来,政务数据开放,应该更多地通过购买第三方服务的方式,更多地交给市场来做。”一位数据商人说,他对未来的政务数据开放市场充满期待。
评论——
“大数据”干不了的几件事情
作者:DAVID BROOKS
编译自:《纽约时报》,What Data Cannot Do
转自:科学人
不久之前我曾与一位大型银行的首席执行官一同用餐。他正在考虑是否要退出意大利市场,因为经济形势不景气,而且未来很可能出现一场欧元危机。
这位CEO手下的经济学家描绘出一片惨淡的景象,并且计算出经济低迷对公司意味着什么。但是最终,他还是在自己价值观念的指引下做出了决定。
这家银行在意大利已经有了几十年的历史。他不希望意大利人觉得他的银行只能同甘不能共苦。他不希望银行的员工认为他们在时局艰难之际会弃甲而逃。他决定留在意大利,不管未来有什么危机都要坚持下去,即便付出短期代价也在所不惜。
做决策之时他并没有忘记那些数据,但最终他采用了另一种不同的思维方式。当然,他是正确的。商业建立在信任之上。信任是一种披着情感外衣的互惠主义。在困境中做出正确决策的人和机构能够赢得自尊和他人的尊敬,这种感情上的东西是非常宝贵的,即便它不能为数据所捕捉和反映。
这个故事反映出了数据分析的长处和局限。目前这一历史时期最大的创新就在于,我们的生活现在由收集数据的计算机调控着。在这个时代,头脑无法理解的复杂情况,数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信,数据可以减轻欲望对知觉的扭曲程度。
但有,些事情是“大数据”不擅长的,下面我会一一道来:
数据不懂社交。
大脑在数学方面很差劲(不信请迅速心算一下437的平方根是多少),但是大脑懂得社会认知。人们擅长反射彼此的情绪状态,擅长侦测出不合作的行为,擅长用情绪为事物赋予价值。
计算机数据分析擅长的是测量社会交往的“量”而非“质”。网络科学家可以测量出你在76%的时间里与6名同事的社交互动情况,但是他们不可能捕捉到你心底对于那些一年才见2次的儿时玩伴的感情,更不必说但丁对于仅有两面之缘的贝阿特丽斯的感情了。因此,在社交关系的决策中,不要愚蠢到放弃头脑中那台充满魔力的机器,而去相信你办工作上的那台机器。
数据不懂背景。
人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中的。经过数百万年的演化,人脑已经变得善于处理这样的现实。人们擅长讲述交织了多重原因和多重背景的故事。数据分析则不懂得如何叙事,也不懂得思维的浮现过程。即便是一部普普通通的小说,数据分析也无法解释其中的思路。
数据会制造出更大的“干草垛”。
这一观点是由纳西姆•塔勒布(Nassim Taleb,著名商业思想家,著有《黑天鹅:如何应对不可知的未来》等书作)提出的。随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,我们要找的那根针被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。
大数据无法解决大问题。
如果你只想分析哪些邮件可以带来最多的竞选资金赞助,你可以做一个随机控制实验。但假设目标是刺激衰退期的经济形势,你就不可能找到一个平行世界中的社会来当对照组。最佳的经济刺激手段到底是什么?人们对此争论不休,尽管数据像海浪一般涌来,就我所知,这场辩论中尚未有哪位主要“辩手”因为参考了数据分析而改变立场的。
数据偏爱潮流,忽视杰作。
当大量个体对某种文化产品迅速产生兴趣时,数据分析可以敏锐地侦测到这种趋势。但是,一些重要的(也是有收益的)产品在一开始就被数据摈弃了,仅仅因为它们的特异之处不为人所熟知。
数据掩盖了价值观念。
我最近读到一本有着精彩标题的学术专著——《‘原始数据’只是一种修辞》。书中的要点之一就是,数据从来都不可能是“原始”的,数据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。
这篇文章并不是要批评大数据不是一种伟大的工具。只是,和任何一种工具一样,大数据有拿手强项,也有不擅长的领域。正如耶鲁大学的爱德华•图弗特教授(Edward Tufte)所说:“这个世界的有趣之处,远胜任何一门学科。”