2014年底,中国互联网电视的机顶盒终端和电视机终端累计用户数已经超过了一亿。可见,互联网电视每天都要产生大量的用户数据信息,这些海量数据,规模大小不一,也毫无数据结构可言,在没有经过分析、处理、挖掘之前,基本上就仅仅只是一些规模很大的、毫无利用价值的零散数据。但由于互联网电视具有双向互动的天然优势,可以采集到用户所有的使用情况记录,这些代表了“群体智慧”的数据记录又可以在播控平台进行大数据处理分析,从而实现大数据的最终目标——“进行判断和预测”,并从中获取价值,成为互联网电视运营决策的根本。
互联网电视运营分析体系的大数据技术实现系统设计,就是通过研究、探讨如何建立基于大数据的互联网电视运营分析体系,和用户之间建立起实时、有效的互动与沟通,通过该平台来收集所有用户的相关信息和数据,再据此分析用户的喜好,然后依照分析结果为用户提供更适合的内容产品、更精准的营销与广告信息。该体系还可以进一步地精确把握用户群体和个体网络行为模式,探索个人化、个性化、精确化和智能化地进行广告推送和服务推广的方法,创造出比现有广告和产品推广形式性价比高数倍甚至数十倍的全新商业模式。
根据上述需求,需要结合大数据应用开发的流程,分步骤探讨每一步的具体技术细节,即按照功能规划、数据采集处理、数据分析和成果应用等四个步骤,来设计基于大数据的互联网电视运营分析体系。
核心功能规划
互联网电视运营分析体系,可以通过与运营商业务平台的终端和服务端系统对接的方式,获取“用户行为数据”和“内容标签信息”,并建立用户肖像,构建“用户—时间—标签”的多维数据矩阵,将用户在互动域的使用行为进行量化并映射到增值业务域,为其业务营销提供精准的数据支撑。
概括地说,互联网电视运营分析体系的主要功能就是实现运营支撑,包括频道/视频内容分析、视频热点内容挖掘、用户观看行为重现、视频播放码率优化、视频广告体验优化、用户操作体验优化等。从对大数据的剖析角度而言,主要是针对运营分析体系的电视(TV)、视频(Video)和流(Streaming)等三类数据来源,如图1所示。
如果对互联网电视的大数据分析功能进行分类的话,可以从四类功能来规划。
统计收视情况。在拥有完整样本的互联网电视大数据分析平台上,可以详细地记录和分析统计出电视节目播出平台上各个栏目、各个频道的点播、直播及回看的收视率。然后按照用户的开机情况、用户在线时长、用户平均收视时长等信息数据,能够统计具体到居住小区的用户收视情况。
分析用户行为。凭借追踪用户行为的功能,实现点播节目和直播频道收视率的实时统计,每隔三秒钟进行数据刷新,还支持按年、月、周、日来分析实时收视率的历史数据。相应的,也可以按照用户访问页面的行为记录,提供路径分析,提升节目的订阅率,优化电子节目指南(EPG),简化电视的互动操作。
支持节目决策。通过平台的分析数据,可以帮助电视台各个频道来建立数学模型,指导节目决策、制作、编排、引进,更准确地满足用户需求,同时也能够提升电视台节目的收视率。
提供个性化服务。从用户的角度而言,做好大数据运营分析系统的首要条件,是更为准确地了解和响应用户的需求,实现EPG的个性化服务、精准推送、推荐相关节目内容,并能够依照用户的变化规律及活跃表现程度,添加各类相应活动,进行用户挽留等服务,从而达到优化用户体验的目的,使得用户获得更佳的服务,不再错过想要观看的精彩节目,精准对位营销优质的节目内容。最终,为电视台等播出机构建设一个节目内容“从产品到商品”的优良市场渠道。
数据采集与处理
互联网电视运营商的大数据主要来自于两部分:一部分来自网络,这一类数据称为过程数据,如用户的开关机行为数据、位置移动数据、上网行为数据等。另一部分来自业务支撑系统,这一类数据称为业务数据,如用户的个人信息数据、电视收看数据、缴费数据、消费数据等。这些数据种类繁多,难以一一详述,本文仅以与用户行为相关的数据为例,来阐述如何进行数据采集与处理。
这些用户行为数据采用基于HBase的分布式数据库。HBase数据库属于Apache Hadoop体系,能进行大型数据的实时、随机读写访问。与以往的RDB(Relation Data Base)比较,HBase具有扩展灵活、支持大批量数据、低成本等优势。
数据采集。在运营分析体系中,每个互联网电视终端都对应了一个用户,该用户都有唯一的用户标识(UserID);用户从终端网络的接口来使用并访问各类业务服务,在终端系统上,用户的各种行为信息都会上传到系统平台(Open Api)中,系统平台处理完数据后再入库,然后为运营分析系统提供单个用户或批量用户的查询工作,如图2所示。
数据结构。HBase中的数据表有体量大(一个数据表能够记录上百万列和上亿行数据)、面向列(可以控制面向列/族的存储权限,并能单独检索列)、设计稀疏(对于null类型的空列,并不占用存储空间。因此,表可以设计得非常稀疏)等特点。
表1 流媒体播放日志示例数据
表1现在显示的是某一时段的模拟数据,内容为互联网电视流媒体的播放信息日志,这些数据都是在普通的数据表中进行记录的。平台刚开始的日志用系统记录的数据来表示,行为序号是人为来定义的,列序号是人工生成的列标识ID。在某一天内,同一个行为日志的列序号是唯一的。
HBase非常适合存储非结构化数据。而将普通数据表(表1)中的数据记录导入到HBase表(表2)中,就涉及到HBase表该如何构造和设计的问题。本文通过设计一系列的反转规则来实现数据的导入。由反转用户序号、用户发生行为的时间、用户行为序号组成RowKey(RowKey是一段二进制码流,HBase中就是按照RowKey来检索的),转换后HBase表中的数据如表2所示。
数据处理。HBase对MapReduce API进行了扩展,方便MapReduce任务读写HTable数据。MapReduce提供了一个编程模型,将磁盘读写问题进行抽象。MapReduce将数据抽象成并演变成为对一个数据集(key/value对组成的集合)的计算。这个计算是由Map和Reduce两部分所完成的,也就是将数据抽象成为Map和Reduce两个对外的接口。
数据分析与挖掘方法
采集和处理了相关数据后,就需要运用数据分析与挖掘方法,为运营商提供更多潜在且有价值的信息,应对外部竞争压力,提高自身运营效率和服务水平,提高决策的科学性。本文选取几类典型应用的数据挖掘分析如下。
电视收视率。每间隔一分钟对收视率进行收集,得到测试数据,然后基于时间序列来进行分析,并以贝叶斯、决策树等分类算法,对互联网电视收视率进行科学预测,挖掘出不同类型客户群的收视特点,发现节目之间的关联性。
用户群细分。按照用户相似度计算准则,建立互联网电视用户群的细分模型,了解不同客户的收视需求、收视习惯、收视能力等。根据客户的性别、年龄、职业、教育程度等属性,利用聚类算法CLARANS(Clustering Large Application based upon RANdomized Search,基于随机搜索的聚类大型应用)、CLIQUE算法、ID3决策树和客户相似度的计算公式实现客户细分算法,找出不同客户群体的特征,区分“高价值”和“低价值”的客户群,从而针对不同客户群制定营销策略。
用户消费行为分析。采用FP-growth算法进行关联规则挖掘,可以发现套餐、节目之间的某种联系,从而挖掘出互联网电视用户的使用和消费习惯,为有线运营商设计用户订购节目的消费套餐和市场促销策略提供数据决策支持。
视频点播推荐。推荐算法主要有:基于物品的协同过滤推荐算法(通过挖掘一个已经存在的用户社区过去已经发生的行为或意见,预测当前系统中的用户最可能喜欢或感兴趣的物品)、基于内容的推荐算法(根据推荐物品的属性,发现物品的相关性,然后基于用户以往的喜好记录,推荐给用户相似的物品)、混合推荐算法(一起使用几种推荐算法,并且通过一种具体的混合机制聚集,输出这些推荐算法的结果)和K最近邻算法(为每个物品寻找K个与其最相似的物品,并推荐给用户)等。
成果应用——运营分析体系架构设计
基于前面的设计与开发流程,采用金字塔模型来实现互联网电视的大数据分析体系的架构设计。该金字塔模型分为七个层面,如图3所示。
图3 互联网电视大数据分析的金字塔模型
数据基础平台层。数据基础平台层的目标就是建立所有互联网电视用户数据的记录,实现全方位了解某用户使用习惯和爱好的目的。数据基础平台层的搭建有三大关键:一是确定用户唯一ID;二是有效的解决数据孤岛问题;三是解决数据有效管理和计算的问题。
业务运营监控层。业务运营监控层主要目的是帮助运营商监控业务运营情况的健康度,快速发现问题并定位问题原因。业务运营监控层的工作有两大关键:一是梳理数据体系;二是打造数据异动监控产品。
用户洞察/体验优化层。该层不仅使用结构化数据来优化和观测,也使用非结构化数据(如视频、文本等)来优化和观测。结构化数据主要是通过各类用户行为模型来分析,非结构化数据则主要由监测各类社交媒体(如微信、QQ、微博、论坛等)和运营商客户服务系统的记录来优化和观测。
精细化运营和营销层。第四层的首要目标是使用大数据来促使互联网电视运营商实施精细化运营和市场营销。实现精细化运营和营销有6个方面的关键举措:构建基于用户的数据提取和运营工具;构建基于大数据的CRM系统;构建基于大数据的营销活动数据挖掘体系;推广渠道质量监控和防作弊;通过数据挖掘的手段进行客户生命周期管理;客户个性化推荐。
业务市场传播层。这一层主要是希望通过直观、生动、可视化信息来配合业务推广传播,主要有两种实现方式:一是使用令人印象深刻、鲜活生动的图表,二是提供形象化、可视化加工过的数据信息产品。
业务经营分析层和战略分析层。这两个层面更多的是传统的经营分析、战略分析层面的理论,互联网电视运营商在这两个层面都有自我特色:一是其数据来源可以取自大数据,并且数据的更新非常快,快到可以实现按小时级、分钟级的更新速度,反观传统的经营分析、战略分析最多是按月份来研究分析的。另一大优势在于大数据的数据来源更加多元化,包括对非结构化数据进行观测和深入分析挖掘。
融合了大数据的互联网电视运营分析体系,能实时研究用户的偏好,向用户提供个性化、智能化、多样化的收视服务,提升使用体验,同时能给有关的行业研究机构提供准确的用户偏好分析。
媒体也能够获取全时段的节目收视数据信息,为节目的策划、设计、编排、调整等提供依据,提升节目品质,促进内容创新。广告商也能按照分析数据,及时调整广告的投放策略,避免重复性投放,提升广告投放精准度。
同时,运营分析系统还能够为政府和行业机构提供决策支持,自动生成专业化的舆论及宣传效果评价、舆情力度、舆情导向及动态舆情变化等多维数据报告。
总之,用心做好互联网电视,才是最终的目标!
(作者孔彬中国人民大学新闻学院博士研究生、国家新闻出版广电总局广播电视规划院信息研究所运营总监;匡文波系中国人民大学新闻学院博士生导师)
【本文系《传媒》杂志供稿】