摘要:第六届2009年中国数字电视产业高峰论坛(CHINA DIGITAL TV FORUM ,简称CDTF)于2009年8月20~21日在北京九华山庄举办。论坛2004年8月在国家广电总局和(原)信息产业部的指导下,由《中国数字电视》杂志社发起创立,中国数字电视产业高峰论坛组委会负责实施。迄今为止,中国数字电视产业高峰论坛(CDTF)已成功举办五届。DVBCN数字电视中文网做为本届论坛的支持媒体,专题系统播报本次论坛。
图为:第六届2009年中国数字电视产业高峰论坛现场,深圳天威视讯总工程师徐江山主题演讲。
以下为实录:
徐江山:各位嘉宾,各位专家,各位同行,下午好!
大家听了上午各位领导和专家就三网融合、下一代广播电视网的一些政策以及业务的形态,做了很深入的探讨和交流之后,我觉得我在这里从一个具体的技术,就是来实现这个业务策略里面的一个目标,就是数字化之后,运营要规模化,服务要个性化,体现在个性化的这一块,就是在技术上我想来跟大家一起探讨这样一个方面的问题。我跟大家交流的题目是数字电视用户行为分析与个性化节目推荐系统。
从这个项目提出的背景来说,大家都知道整个无论是通信也还是互联网业,或者是广播电视业都是经历的这样一个时代的变迁,首先我们是从一个单向广播时代,从1.0时代进入了现在互动时代,叫做2.0时代。作为我们下一步,我们可能更关注的是个性化服务的时代,点对点的交互性的,个性化的,甚至是点对一个小众的这样一个窄众的服务时代,我们称之为3.0的时代。
另外一方面,我们系统数字化之后,有线电视系统也会存在跟信息网系统一样的技术上的难题,就是我们信息的无限的丰富化之后,我们电视用户面临和互联网用户一样的信息过窄的问题,就是我们电视用户在终端上面对上千套的节目,他找不到自己所需要看的节目,大家试想一下,当你把这么多频道的节目呈现在用户面前,当你把数万小时点播节目放在库里面的时候,怎样让用户快捷的发现他自己感兴趣的内容,这就是我们要解决的问题。
另一方面,从广播电视的盈利模式来说,我们今后有一个巨大的商机就是个性化的服务,个性化的服务主要是节目和广告的定向推播,深度的收视率的调查,以及电视商务等个性化服务,将为传统的电视行业带来新的业务空间和利益增长点。
上面列举的这些是问题,我们用什么方式解决这些问题呢?我们要彻底解决电视信息过窄和个性化服务的问题,就需要研究用户收视行为,判断用户收视喜好和爱好,根据用户的爱好、喜好和规律自动向用户提供服务,而且要自动跟踪用户兴趣的变化,对推荐的节目和服务进行调整。值得一提的是这个系统是动态变化的,而不是一成不变的,因为用户的喜好是动态变化的,这就是数字电视推荐系统的概念。
我们提出的项目也好,问题也好,要解决这个方面的问题,可能要从两个角度入手,第一个要研究这里面一些理论的问题,包括整个节目推荐系统的整体架构和方法,以及数字电视用户特征的算法,就是数据挖掘的算法用到数字电视的领域,还有节目特征的定义,以及用户特征和节目特征的匹配,推荐的机制,还有怎么样衡量你这个系统的性能,你推的准不准,推的全不全,这个涉及到我们需要在理论上关注的问题和课题。在应用开发商就要基于实际的数字电视的环境,包括从终端到双向的网络,到前端的业务平台,一整套的实际开发环境。就需要研究这样用户收视记录的协议,要研究用户的提取算法,甚至在这个系统里面我们非常关注用户的使用习惯,研究这样一个系统的UI界面的设计。早上张大钟总经理也讲到,其实在我们整个数字电视服务里面,我们可能要在服务的深度上更深,但是让用户使用起来更便捷。
我这里比较了一下数字电视节目推荐系统和其他信息类推荐系统的差异,对于电视节目推荐系统来说,电视节目推荐信息不是文字性的,因此不能直接使用基于文字的过滤技术,必须对节目进行实现文字性描述,当然这是基于内容的推荐系统,需要对节目进行描述。然后,才能基于文本的过滤技术。另一方面,因为电视节目只是在播出的时候才存在,不是像CD、电影、书籍,大家可能都感受过CD、电影的推荐网站,他们的生命周期存在于被出版后相当长的时间内。对于电视来讲,特别是直播类的电视节目生命周期是很短的,所以电视节目推荐系统就是有一个合作过滤或者是关联推荐的概念,就是不能单独的采用这样一个基于静止的推荐方式。还有一个就是用户对于电视节目消费的心情是随时会变化的,我举一个简单的例子,作为一个非足球爱好者的人士来说,可能在世界杯期间是非常喜欢看足球节目的。所以,如果完全依靠用户一成不变的显性特征的提交,以及你对这个用户历史收视记录的分析,可能是不会捕捉到用户这个瞬时的兴趣变化的。所以,在系统设计里面一定要提供这样一个通道,给用户进行这样一个突变兴趣调整的机制。所以,在整个系统设计过程中,一定是要一个动态的调整机制,就是对于用户特征的描述一定是动态的。
在数字电视个性化节目推荐系统领域,在国外特别是在欧洲对这方面作有研究,IBM公司在1995年就提出智能电视引擎的概念,之后飞利浦公司、都柏林大学、意大利、西班牙等等一些学者都进行了研究,中国西北大学和上海交通大学两位学者也在近两年对这方面的研究有了一些论文发表。谈到数字电视节目推荐系统,在节目特征的建模方式目前都是基于内容的,对节目进行分类的描述,包括对于分类信息、播出时间信息、播出频道信息、演员、导演、节目时长,甚至对节目简单的描述,是基于文本的定义。只不过不同的学者采用的分类的方法和标准不太一样,对于用户特征的建模方面来自于三个方面,第一个就是在我们打造这个系统的时候要提供用户注册的窗口,用户在注册的时候会提供他对电视节目喜好特征,比如对什么类别的节目感兴趣,在什么时间看电视,以及对哪个演员,哪个导演感兴趣,这是来自于用户系统注册的时候主动提供的喜好特征,我们叫做显现特征,显现特征是有利于反应用户突然的兴趣变化。
另一方面,就是来自于我们对用户长期消费行为的监视、搜集,对于这些数据搜集好之后进行数据挖掘、提取,得到用户的喜好信息,这种特征我们叫做隐性特征。隐性特征更有利与反应客户渐进式的兴趣变化。第三,当我们系统初期用户不主动提交信息的时候,我们可以主动引用一些社会权威调查机构的分类收视受众的调查用户的受众的这样一个喜好信息来作为这个系统的默认的用户特征,解决用户特征在系统开始时候的缺失问题。
这些学者已有的研究成果方面都是把显性特征和隐性特征结合起来描述用户的特征,并且也引入了一些社会调查机构的调查数据来作为初始数据。在用户特征提取算法方面也用了各种各样的算法,比如基于统计算法,比如简单的统计算法,排序算法,还有基于神经网络的排序的算法,主要是基于人工智能和模式识别的算法,对这些用户特征,特别是隐性特征做这样一个提取。在推荐机制方面我们要定义两个特征向量,一个是节目特征向量,一个是用户特征向量,基于这个特征向量夹角的大小确定相似度,当然还有基于贝叶斯概率统计,根据用户历史收视记录分析这个节目对于这个用户来说喜好观看的概率是多大,我们把概率高的节目推荐给用户。
对于这样一个系统性能的衡量机制方面,从各个维度进行衡量,对于信息推荐系统一个典型的衡量就是推全率和推准率,对于我们来说,这个系统用户关心的节目你有没有给他推全,这是一个衡[FS:Page]量的维度。另外一个维度就是你推荐给用户的节目,用户是不是都感兴趣,就是你推荐的节目是不是准,这两个维度是一个矛盾的东西。所以,在这个领域里面主要是用推全率和推准率的概念衡量节目推荐系统的性能。
综合前面对节目推荐系统的现状分析,我们在实际的开发过程中,主要是要基于实际的数字电视的运营系统来做这个系统。第二,可能我们还是要研究一下算法的优劣,比如基于统计算法里面的简单统计算法、贝叶斯统计算法和排序算法等等的性能的比较。另外,对于聚类算法来说不是不可以在这里面用,但是聚类算法的点对于节目来说没有实际的物理含义,我们就要把这个算法变换到另外一个空间来进行衡量。最后一个方面就是整个系统要基于向的机顶盒,并且基于中间件的平台,基于双向的HFC网络上实现可运营、可管理,应该说是一个比较复杂的系统。
我前面讲的是系统的现状和大致的方面,我再讲一下推荐系统主要的组成模块,第一个是用户特征模块,第二是节目特征模块,第三是匹配推荐模块,在这些之外还可以采用过滤的特征进行推荐。比如找到和我这个人兴趣爱好相近的人,或者是群体,把这样的人和群体收视记录推荐给我,这是一种社会推荐或者是社会过滤的概念,也可以用在这个推荐系统里面去。对于节目特征的描述,刚才讲主要是从节目的分类,节目制作信息,包括演员、导演、制作商、制作年代,节目的内容信息,节目的播出信息等进行描述。所以,这个要求我们做这个系统的时候,我们现在用的简单的EPG不能满足这个系统的需求,我们整个EPG里面的内容的含量是非常要扩大,所以对于EPG的生产厂家提出了更高的要求。刚才说到推荐机子,就是基于用户特征向量和节目特征向量的相似度进行推荐。对于系统评测机制有基于绝对误差的,也基于标准离散误差的,还有基于推全率和推准率的,目前主要是推全率和推准率。对于节目特征的建模来说,我们有一个分类,我们基于SI的标准,这个标准和我们国家的EP标准进行分类。央视有这样的调查的数据,就是对于不同的人群,包括性别、年龄段,收入段,职业段,教育背景等方面,对于不同的类别的电视节目的收视五数据的统计,我觉得这块的统计数据可以拿来作为整个系统的初始输入。在用户注册的时候,我们要提供用户的UI界面给用户输入他的特征,这种特征可以设置一些方便的按纽让用户选择。另外,对于我们所有推荐的结果,要用户可以进行评价,比如说他要是特别喜欢的,我系统可以自动记录下来用户非常喜欢这个节目,如果是特别不喜欢的,可能是对用户进行调整,就是后台记录这个用户不喜欢这类的节目,在后期推荐里面可能对用户的特征进行一个调整。这里面就体现出这个系统是一种动态的可调整的系统。
基于用户隐性特征的提取,就是简单的统计算法的提取,把这样一个用户的特征的向量里面每个属性定义好,比如大类,小类,时间,频道,还有导演信息和演员信息,不同的属性,你跟他定义一个不同的权重,在这里面就可以基于一个非常简单的统计算法,在历史收视记录里面提取用户收视特征。另外,可以基于贝叶斯全概率公式提取用户的收视特征,还有是基于多重特征排序算法提取排序函数,因为刚才讲到了对于用户特性来说,因为我们是多重特性,在什么时候哪一重特征占的权重更大,我们可能要基于多重特征下的排序函数来学习他,可能更准确一些,所以这里面用到了一个多层特征的排序算法来对这个隐性用户特征提取。还有一个是基于聚类算法,我们要找到用户的聚类点,这个聚类点体现了用户的收视特征。当然,这是在使用聚类算法之前要对向量空间进行变换,解决在使用过程中聚类点没有明确的物理定义的问题。
当然,不同的算法有各自的优缺点,从简单统计算法到贝叶斯统计算法,到排序算法,算法是越来越复杂,统计性能越来越高,当然系统数据的计算和数据的开销也是呈几何级的增加,所以在应用的时候还是要进行权衡,到底用哪种隐性用户特征提取的算法。我们也对于不同特征提取算法下的结果进行了测试,就是拿出我们的推荐结果和用户实际在那个时段收看电视的记录来进行比对,我们发现我们的推荐结果的数据还是能够达到60-70%的准确性。这是我们在中间计算过程中对不同的算法的性能进行了比较准确的计算和评估。这里大家可以看到,我们基于聚类算法,我们整个学习样本是用户过去两个月的收视记录,从过去用户两个月的收视记录里面,我们可以使用这样一个聚类算法,可以看到用户收视是有特征的,是有云团的,他们的兴趣爱好是聚类的,实际上每个云团的中间点代表了这个用户对于不同节目的喜好特征,到时候我们就拿出这样的中间点出来作为用户的特征向量,来跟节目的特征向量进行比对。
实际上,我们可以看到这里面有一个表,这个表就是我们取了三个云团的中心,边上的十个样本点,发现这十个样本点都是同一类节目,说明这个聚类算法是非常准的,只有同类的节目才聚集到一起,从应用开发的角度上来讲,整个系统开发过程中有几个前提,第一个是基于双向的终端、双向的网络,以及前端的服务器集群,在制定用户采集协议里面,除了采集协议的各种协议要定义清楚之外,还要终端和前端之间有一个信道的协议,以及控制协议的自动下发。这里面大家要考虑一点,比如这里面涉及到用户隐私问题,采集到用户的收视记录,如果用户投诉你的话,你的系统如何实现对于这个特定投诉用户采集程序的关闭,这个有涉及到整个控制的下发问题,所以这个系统里面还是很复杂的。
第二点,我推荐的节目不仅仅是把这个节目推荐出来,推荐出来关键是用户要使用,用户点击你个接口的时候一定是直接链接到媒体,如果错过的话,要有提醒信息。所以,这样就需要我们架构在一个比较完善的中间件的架构之上,从应用到低层的调用的接口都有一个比较灵活的定义。这是我们定义节目推荐系统,我们已经把他作为我们下一步高清交互平台的一个主打业务、一级业务,命名为MYTV,MYTV作为我们今后八大类高清交互一级业务方面,为用户提供个性化的方便的节目的推荐和搜索的功能。
这是我们在机顶盒上开发的基于用户的注册的界面,其实刚才讲到了,我们在整个系统开发过程中,既要想到这个系统本身是基于个人的推荐系统,如果个人的收视记录或者是个人的喜好特征搜集越全,这个系统特征就会越准,越好,但是这个也跟我们机顶盒作为一个家庭终端使用有些矛盾。所以,我们在整个系统设计里面还是要考虑这样一个平衡点,就是即要让比较年轻的人士,懂得电脑操作的人士愿意提供以个人用户名的注册或者登陆,提供这样一个通道,同时也可以基于机顶盒的方式,如果用户不基于个人方式登陆,可以是逆命登陆,我这个系统监测的就是机顶盒的信息,在这方面就兼顾了基于人的个性化和基于家庭个性化平衡的关系。
我们在整个系统设计里面设计了这样几项功能,第一个是用户可以预订,对于所有的节目搜索了之后可以预订,预订到了之后弹出提示框,用户可以进入观看。第二个就是热播排行,就是我们所有的用户的收视记录是时时回传的,我们可以检测这个系统里面热播的节目是什么,我在后台分析后了之后,对热播的节目可以时时推荐给用户,这是系统热播的信息。另外一方面,有是我们有一个当前推荐,就是用户只要进入我们系统,以当前时间点回退一个小时,再前进四个小时,四个小时就是一个时间段,在这样一个时间段里面符合这样一个用户的收视喜好的节目就会自动呈现在推荐节目清单里面。还有就是全日推荐,[FS:Page]就是以天的形式向用户推荐符合他兴趣爱好的20个节目。当然,这种推荐的节目,特别是全日推荐的节目,其实不仅是这样的系统使用,作为用户的导视的工具,如果我们有PVR系统的话,可以把推荐的清单导入PVR系统,可以自动的收录观看的节目,或者是通过别的渠道发布。比如通过邮件系统,或者是通过手机的系统发布到用户其他的途径里面去。
这是基于MYTV推荐系统视频节目,也是基于WEB视频界面的设计,便于用户使用和感受,使用和感受会更好。这是一套系统我们已经上线一年的时间了,当然是测试系统,从Google和雅虎的搜索引擎来说,已经有一些反应,在网站上已经有一些搜索结构出来。这项研究也注册了一些专利,授予了三项发明专利。
我从一个具体的个性化的服务的角度给大家介绍了这样一个用户收视行为的分析,以及基于用户收视行为分析基础上的具体的业务,就是节目推荐。当然,我们双向化之后,基于用户收视行为分析的数据还可以延伸出很多的业务形态,比如刚才讲的广告的定向推播,今后比如我们VOD的运营上,可以做FVOD的模式,当然是一种贴片广告的模式,当然如果这种贴片广告可以做到更精准的投放,广告商是非常乐意的。这种个性化的运营的前提就是基于我们对用户消费行为的精准的掌握,所以,我觉得上午张总讲的很好,我们作为广电的运营商,以前是只有观众的概念没有用户的概念,所以从现在开始,我们可能更要注重用户的概念,这种用户的概念就体现在对用户的服务上,对用户消费行为的精准掌握上。
谢谢大家!