于CCBN 2014主题报告会发布的“2013年度中国广播电视行业十大科技关键词”中,有一个是“大数据”。国家新闻出版广电总局科技委副主任杜百川对其的解读(原文。摘自广电规划院发布的稿件)是:
“大数据是指非常大数量的无结构的且不断增长的数据,尽管多大量没有规定,通常在10亿GB(Exabyte)以上。据统计,过去两年产生的数据是全球总数据量的90%,且还在不断增长。看似无序的数据隐藏着大量有用信息,如何管理和利用大数据是各行各业都在研究的课题。大数据技术包括大数据分析、大数据管理和大数据云服务等。目前广电行业大数据分析已经应用在电视剧的选题、选导演、选演员、选剧情上。有线网络也利用用户观看行为大数据分析,在更好地契合大多数用户需求的同时实现对不同用户的精准服务。广电如何实现各地用户大数据的共同分析和利用是广电迫切需要解决的问题!”
从国内发展情况来看,我国大数据产业链还未成形,只有手中掌握数据的公司的,如百度、阿里巴巴等推出了商用服务,其他的大数据应用仍集中在企业内部使用,未来发展前景巨大。
一个大数据项目要成功,关键就是要正确认识大数据的短板。大数据绝对不是万能的,千万不能认为大数据可以搞定一切,有了大数据的帮助,就可以无所不能。现实中构建大数据模型往往就可能存在一系列的偏差(有过数学建模经历的人对此会深有感悟),著名的案例就是通过社交媒体大数据分析就业市场。
大数据分析目前至少还存在5个不足。
首先,大数据不擅长情感分析。人类大脑在数学方面比较差,而在社会认知方面则很强。人们很容易就能够感知到对方的情绪,分辨出不友好的行为以及根据感情进行价值评估。而计算机所主导的数据分析则擅长分析社会关系的数量而非质量。因此,在需要基于社会关系做出决定时,只依靠计算机而不依靠人的大脑是愚蠢的。
其次,大数据不擅长进行上下文分析(这个是很致命的)。人类的决定往往是基于前后关联的情景,比如在讲故事时,人们很擅长把不同的原因和情景结合在一起。数据分析则在这方面表现得非常糟糕,它很难分析清楚小说里的线索和各种前后关系。
另外,大数据不擅长处理真正的巨型问题。如果想知道哪些邮件对推广活动活动最有效,你可以抽取对比组样本进行比较。可是,对于一个大型运营商的发展决策,就很难找对对比样本数据,就很难通过大数据分析给出一个简单的结论。
另外,数据分析的结论往往是基于大众偏好的。数据分析可以发现很多人们喜爱的产品,而很多新的高利润产品往往得不到大众的喜爱和支持,通过大数据分析很可能漏掉这类产品。这也是值得所有企业注意的问题。
再次,大数据的原始数据并不原始,是被操纵的。《原始数据的矛盾》一书中有一个观点就是“原始”数据其实也并不原始,它总是按照某设计者的要求来讲行组织的。这样一来,设计者的观点或价值观总是会或多或少嵌入这些“原始”数据中。因此,在数据的采集到解释讨程中,都会带有原始数据设计者的意志。就像任何好的工具一样,大数据有它所擅长的地方,也会有其局限的地方。
那么,导致大数据项目失败有哪些原因呢?
最近,Kongagent公司的兑裁及首席科学家Josh Williams先生的一篇演讲中总结导致大数据项目失败的原因有以下7个方面:
1)数据量不足以支持大数据分析
如果没有足够的数据量,任何的大数据分析也可能帮不上忙。有一句话一直是大数据领域的真理:“好的算法能打败差的算法,但数据量大也能够打败好的算法’。
笔者对比分析:目前,我国广电传媒大数据的采集才刚开始,还没有形成系统的数据源为大数据项目服务,这是应尽快补上的重要一课。
2)数据分析模型有问颗
另外一个常见的错误就是没有用好数据分析。Josh Williams认为“不要认为企业里每个人都是数据专家,你给他们仅仅看数据,他们也可能得出错误的结论’,必须积极讲行数据分析,并目生成一些让人容易理解和信服的报告。
笔者对比分析:实际上,我国大多数人可能还不习惯通过数据说话,特别是大数据分析得出的冰冷数据,并且某些数据分析模型确实还比较欠缺,如2012年初周克华在南京犯案后,南京警方已经通过平安城市项目的摄像头收集到了大量视频资料,但是却没有合适的工具进行分析,只能动用1 000多名民警24小时看视频,不仅浪费了大量警力,而且效率极差,最后也没能帮上大忙。
3)分析报告多而杂导致失去重点
海量信息再加上一个好的数据可视化工具,很容易导致报告过量,句括讨多的衡量指标等,这样往往会导致忽视关于企业或行业的一些重要结论。
4)分析结果数据定义或解释的歧义
不同的部门对大数据报告中的数据的解释不同,或对如何采取行动的意见不一致,就可能导致分歧。对数据的定义不同,对数据含义的不同诠释以及对数据结果如何采取行动的不明确,往往会阻碍企业采取正确决策。
5)没有慎重使用大数据分析结果
当用户分析数据或阅读报告时,企业经常会发现一些值得注意的要点,并且往往根据这些轻易地得出结论,这些结论可能导致错误的决策,进而导致严重的执行后果。
6)根据假设倒推分析结果
数据分析应该是用分析的方法来证实或否定一个假设。一些企业负责人经常喜欢在先有结论的情况下,通过大数据分析来证明自己的结论。一旦大数据分析的结果和自己的假设不一致,就开始怀疑大数据分析模型或试图修改模型,来最终验证自己的假设。
7)有了分析结果没能及时采取行动
在大数据时代,对数据分析,迅速采取行动,从行动的结果中学习并进一步分析,是企业赢得竟争力的关键。当然,企业需要好的数据分析流程,要避免直接跳入结论,要避免用预设结论影响分析结果。但是,一旦做出决定,就应该迅速采取行动而不是拖延。互联网企业很容易做到这一点,而我国广电传媒企业还有很多功课要做。
另外,关于开源大数据平台的选择问题,大数据从电商企业、移动互联网起家,因此,开源成为大数据平台的重要基因,这也是Hadoop红火的另一个重要原因。当然,开源并不意味着回到手工作坊时代,每个企业都要打造自己的开源大数据平台,而是要有充分的开放性,基于开源的理念和架构,提供成本低还是选择第三方企业包装测试好的Linux平台,而不是一个客户完全自主研发的Linux平台。
责任编辑:方珍