【家庭互联网观察】大数据的新三化目标

2015-11-09 18:23:12来源:DVBCN数字电视中文网 作者:怡然热度:
要想降低沟通与迭代的时间成本,最好的方式是相关的领域能够独立进行大数据分析。能够不依赖数据科学家和工程师即可顺利进行大数据分析,是大数据平民化的终极目标。
 
为了实现这个目标,未来的大数据技术应具有三大特点:
 
交互性
 
数据分析是一个迭代的过程,领域专家会根据当前的分析结果继续调整业务参数甚至切换分析目标,这个过程可称为探索式数据分析。
 
良好的交互性对于探索式数据分析的效果至关重要。大数据系统的交互性包括两个方面。
 
其一,系统需要呈现可视化的分析结果,这种可视化并不是静态的图表,而是一种类似谷歌地图的系统,允许分析者从多个角度、多个层次观察结果。
 
其二,系统需要允许分析者通过直观的界面调整分析参数并迅速获得反馈,在人机互动迭代的过程中洞察模式和趋势。
 
只要我们相信计算机还不能完全取代人类迅速做出某些决策(例如确定业务参数、特征工程等),那么就有必要以交互方式在数据分析过程中整合人类智能。
 
云端化
 
云端化能够降低大数据技术的部署与使用成本,现在有很多商用的云端大数据技术,例如亚马逊的弹性MapReduce 计算服务和机器学习服务等。
 
但是,这些服务仅能完成实现数据价值的部分中间步骤,并没有将数据到价值的过程彻底打通。真正能够推动大数据技术普及的云端化是建立在“一站式”的基础上的。
 
此时,数据输入的方式应由周期式ETL(提取转换加载)转变为实时推送,在数据产生时即送入大数据系统,这样不仅能获得实时的分析结果,而且取消了将数据预先存储下来的中间环节,进一步降低了大数据系统实施的门槛。
 
例如,一个电商平台采用完全云端化的推荐系统时,只需要在自己的应用前端(网页或移动App)嵌入一段收集数据的代码,将用户行为数据通过调用Web 服务接口直接推送到云端,推荐系统实时更新所有用户的推荐结果,同样也以Web 服务接口形式提供给电商平台使用。
 
在这个过程中,推荐系统服务的使用者不需要了解系统的可扩展性、推荐算法等“高级”技术。
 
一站式
 
即端对端,一端输入原始数据,另一端输出有价值的分析结果。两端之间的中间环节,有数据整合、存储、管理、计算、建模等。
 
定制完成后,所有中间环节集成为一个整体,领域专家无须深入了解细节,可将其视为黑盒来使用。
 
例如,搭建一套预测流失客户的大数据系统,领域专家不必关心数据管理应该用关系数据库还是NoSQL、查询处理应该用Hive 还是Spark、模型应该用逻辑回归还是随机森林等问题,而仅需说明输入的客户数据的含义、流失客户的定义、预测结果的形式等等。
 
对于领域专家无法精确定义的业务参数,系统应允许其在分析时动态调整。
 
例如,假设领域专家定义的“流失客户”是“最近x 个月的消费比之前x 个月的消费减少了y% 的客户”,这里的x 和y 是与业务相关的参数,数据科学家设计模型时应将它们作为模型的可选参数,而不需要与领域专家反复沟通确定一组“最合理”的取值。
 
简而言之,一站式能够使领域专家从底层的大数据技术中解脱出来,专注于实现数据本身的价值。

责任编辑:饶军

为您推荐

【热点】PPTV嫁苏宁 看苏宁如何抢滩家庭互联网

苏宁收购PPTV以后,张近东的具体玩法就很清楚了:打造苏宁式铁人三项,即互联网(应用与服务)+硬件+渠道,以这样的方式布局其家庭互联网战略。NO 1第一个大动作是在PPTV的盒子产品,即PPBOX中植入苏宁的电商服务:用户的数字电视接入PPBOX之后,将能通过电视访问电商网站苏宁易购选购各种产品。NO 2第二个大动作是苏宁将与各大电视生产商合作,通过苏宁各个