大数据在当前的科技新闻中占据了主导地位,它被吹捧为一切问题的可能的解决方案,从入侵检测与预防欺诈,到治疗癌症和设置最优的产品价格。
但我们定义大体量、多格式、高速度的大数据,并不是能够搞定每一个问题的灵丹妙药。事实上,如果公司迷信周围的一些大数据的神话,可能在错误的方向越走越远,浪费大量的时间和金钱,影响公司的市场竞争地位,或者损害公司的声誉。
以下是企业应当知道的围绕大数据的十个最大的误区,了解他们将有助于有效地避免大数据的消极影响,并真正获得大数据带来的商业价值。
避免投资浪费,认清大数据的10大误区
误区1:只有数据科学家可以处理大数据
事实上,只有数据科学家是不够的。
“数据科学家本身不能获取大数据的信息,如果你不知道你寻求的首要问题,”Penn Medicine数据分析高级总监Pat Farrell说。“你需要熟悉的行业、领域知识的人,了解存在什么样的问题,有什么见解对这个特定的行业才是有价值的。”
例如,Penn Medicine包括卫生系统和一所医学学校。长期以来,卫生系统一直在数据仓库收集临床数据。同时,在医学院,新技术允许人类基因组的测序,这需要一个庞大的数据量。
“我们知道有值在哪里,并且我们终于有计算能力来访问它,”Farrell说,结合数据分析和医学专业知识,开辟了预测医疗保健的一个全新的领域。
误区2 :数据越大,价值越大
Farrell表示,收集、贮存数据并对其进行编目需要时间和资源,不加区别地收集大量的数据可能使得更有价值的项目与这些资源无源。
Farrell建议,公司在开始收集数据之前,要对它们的具体指标或关键绩效指标有清晰的认识。
误区3 :大数据为大公司服务
大公司可能有更多的数据来源,但即使是小公司,也可以利用从社交媒体平台,政府机构,以及数据供应商获得的数据。
“不管组织规模的大小,基于数据的决策总比单纯依靠直觉进行决策更加靠谱。” 戴尔软件信息管理解决方案部门的产品管理高级总监 Darin Bartik说。
小型公司往往比同行的大企业更少地使用数据驱动的决策,但如果他们这样做,他们可以更快地修正策略。
误区4:现在收集,以后整理
存储越来越便宜,但它不是免费的。总部位于旧金山、基于云计算的商业智能厂商Birst的首席执行官Brad Peters表示,对于许多公司来说,数据增长的速度超过了存储成本下降的速度。
一些公司认为,如果他们只是收集数据,他们以后会找出这些数据的利用之道,但付出大量成本却毫无价值。事实上,一些数据集适用收益递减规律。例如,你进行民意测试来预测选举结果。你需要一定数量的投票人以获得具有代表性的样本。但这个数量达到某个点之后,增加更多的人不会显著影响误差幅度。
而且这不仅涉及存储成本,Recommind公司信息治理和大数据管理全球主管Dean Gonsowski说,该公司总部位于旧金山,专注于非结构化数据分析。
例如,数据越多,进行排序的时间就越长。“当数十亿条记录入库,搜索需要花费数小时或数周。”他说。
误区5 :所有数据的都平等
弗吉尼亚州在过去20年一直在收集有关学生注册人数,财政援助和奖励程度的数据。但是,这并不意味着,20年前收集并存储在相同的数据字段中的数据一定是相同的数据。
“我处理的最大问题是,仅仅因为它是在数据字典中,研究人员认为这是公平的比赛,”弗吉尼亚州议会高等教育政策研究和数据仓库主管Tod Massa说。“例如,ACT和SAT的学生的考试成绩数据,最初只对本州的学生收集,然后有一个缺口,然后收集本州和其他州的学生数据。”同样,不同种族在K - 12级别和在高等教育的数据也有所不同。
事实上,任何特定的数据,由不同的机构,或不同的人,或在不同的时间点报告的,都可能有所不同。
因此,分析师需要具备的不只是统计技能,而且还要熟悉数据的当地知识,和行业的整体发展趋势,如SAT和ACT成绩被重新标定。
“你不能编程所有这些东西放到一个数据仓库。”Tod Massa说。
这同样适用于外部的数据源,也就是说,很好地使用任何数据,确实需要了解这些数据收集的文化和背景。
误区6 :更具体的预测更好
人的本性认为更具体的东西更准确,如'下午3:12'比'下午某个时间'更准确。
但事实正好相反。在许多情况下,更精确的预测不太可能是准确的。例如,一个客户买了一台特定配置的笔记本电脑,而过去购买该配置笔记本电脑的唯一的客户,还买了一双粉红色的高跟鞋。
“热门粉红色高跟鞋的推荐可能很具体,但可能太具体,导致很高的误差,”位于加利福尼亚州圣莫尼卡的营销公司Retention Science首席执行官Jerry Jao说。
所以,通常看起来漂亮的东西,实际上可能无助于业务和营销管理。
误区7:大数据等同于Hadoop
Hadoop,针对非结构化数据的一个流行的开源架构,最近已经得到了很多关注。但企业还有其他的选择。
“有整个的NoSQL运动,”SAP大数据总经理兼高级副总裁Irfan Khan说。“有MongoDB,Cassandra等其他完整的技术。”
其中有些技术可能更适合特定的大数据项目。尤其是Hadoop的工作原理是将数据划分成多个块并行处理。此方法适用于许多大数据的问题,但不是所有的问题。
“虽然YARN和Hadoop 2解决了一些问题,但有时你需要处理的方式,Hadoop不是理想的选择,”大数据咨询公司LucidWorks首席技术官Grant Ingersoll说,“人们需要保持冷静的头脑,并决定什么是最适合自己的,而追随时尚。”
误区8:最终用户不需要直接访问大数据
大数据往往太过复杂,以至于需要专门的员工来处理。但是,这并不一定如此。
举个例子来说,由重症监护病房中的设备所产生的全部数据。心脏速率,呼吸数据,心电图读数。虽然,很多时候,医生和护士就只能看到病人的当前读数。
“我看不到在10分钟前的情况,也不能绘制未来一个小时之内的趋向线,”飞利浦医疗保健患者护理和临床信息首席营销官Anthony Jones表示。
但能够看到病人的历史数据对于一个医生做决定非常有价值。“这些家伙有一个核心的数据科学团队,他们缺少一个巨大的机会,”Jones说。
现在的问题是让所有不同的设备生成的数据能够交互,即使它们并非为此设计,并使用不同的平台、操作系统和编程语言。一旦你这样做,医生和护士能够在需要的时候得到一个有用的数据表单。
误区9:大问题才用到大数据
一家大银行的首席信息官最近发表了关于大数据的谈话,并被询问关于最终用户自助服务的问题。
“这位首席信息官说,‘我不相信’,”Birst首席执行官Peters回忆说。
这是一个共同的态度,他说,一些高管认为大数据只回答了某些类型的问题。这种态度可以这样概括:“我们的大数据目标是解决极少的高价值的问题,通过核心的数据科学家团队。我们不希望数据混乱,让普通人有机会访问这些信息,因为我们不认为他们需要它。”
Peters不同意这种观点,但表示这常见于很多行业。“这是大型保险公司里面猖獗的神话,但业务用户都没有足够的智慧处理它。”
误区10:大数据泡沫终将破灭
炒作周期可能来回反复,但技术始终坚持变革。互联网泡沫的破灭,并非互联网终结的信号。
即使在炒作平静下来,公司仍将有大数据需要处理。事实上,由于呈指数增长,他们将有预计比以往任何时候更多的大数据处理 - IDC预计,直到2020年,累计收集的数据数量,每两年将增加一倍。
并且它不只是公司目前收集的东西。相反,新的数据类型可能还会出现,需要大量的存储。
宾夕法尼亚州互动营销公司Cadient集团首席技术官Bryan Hill表示,认为“大数据”只是一个阶段,企业可能错过机会捕捉到可能对他们的业务产生影响的数据元素。
“所谓‘大数据’很可能会改变,就像云计算和以前的web其实没有什么不同,”他说,“这个词可能会改变,但大数据的精神会在里面留下来。”
下一篇:华为如何成就数据中心领先?上一篇:非结构化数据分析:大数据时代新价值
责任编辑:封秀萍
为您推荐
拉开2012的大幕:大数据、移动IT和云计算
即使对于那些已经习惯于不断变化的CIO们来说,2011年都是令人眼花缭乱的一年。在这一年中,移动计算风起云涌,大数据处理大行其道,社交媒体和网络爆发出催生社会变革的骇人力量。而且,BYOD(bringyourowndevice)和VOC(voiceofthecustomer)的趋势也证明了用户体验正在重塑IT的角色定位。这些技术同样改变了传统的语境。随着IT组织和业务团队都认识到相互之间密不可分的依赖性,“IT和业务的适配”最终让位于“IT和业务的整合”或者“商业技术”。在2011年,先前关于云计算的各种宣传和鼓吹逐渐成为令CIO们痛苦的事实,后者不得不绞尽脑汁在云计算和企业安全之间达成平衡。
大数据时代个人隐私如何保护
80万页中国人寿客户资料可以随时在网上查询?一场信息泄露风暴席卷金融服务行业。2月27日,中国人寿发表声明称,其合作方成都众宜康健科技...