新媒体环境下的短视频推荐模型及算法研究【2】
3.4评估标准的确定与实验结果
由于在上一步中,我们产生了对于用户的推荐视频排名表以及用户的测试集实际浏览数据集,所以我们有数据基础进行算法实验结果的评定。对于一个推荐系统而言,最重要的两个指标莫过于准确率以及召回率。
准确率描述的是:最终的推荐列表中有多少比例是发生过的用户-视频有效行为的记录,考察推荐列表的准确程度。召回率描述的是,在最终的推荐列表中包含多少比例的测试数据中的用户-视频行为记录,描述了推荐列表反映用户实际兴趣的程度,是考察推荐列表反映用户兴趣的完整性的一项指标。
我们用U表示数据集里的用户集合,R(u)表示对用户u推荐的n个视频集合,T(u)表示用户u在测试集上有过有效行为的视频集合,则准确率计算公式如(2-1)所示,召回率计算公式如(3-8)所示
式(4-1)
式(3-8)
为了避免由于数据集划分的误差,我们采取多次划分取平均值的方法,最终实验结果如图3-9以及图3-10所示。我们的x轴表示的是推荐窗口大小,即为用户推荐排在前多少的视频。图2-9是准确率在推荐窗口大小从0-1000之内的表现,图3-10是准确率在推荐窗口1-10的局部放大,具体实验值记录在本文附录中。从图中可以看出,如果不采用推荐算法,推荐准确度为4.9%,若采用本推荐算法,当窗口在5左右时,准确率可以达到最大,大约为42%。
图3-11为召回率数据图表。从实验结果可以看出,召回率因为窗口的增大而上升,在测试集被充满时达到最大值。
很明显,无论是精确度还是召回度,都是只从一个角度去描述实验结果,如何更好地综合实验结果,从多度描述综合结果,是一个问题。
为了更好的综合衡量两个标准,我们采用F-measure[9]作为指标来比较。若表示对于用户u的准确率,表示对于用户u的召回率,则F指数定义如公式(3-12)所示
式(3-12)
经过计算,F-measure实验结果如图4-5所示,有图表中可以看出,随着推荐窗口的增大,F值先增大后减小,在窗口值为50左右时,F值达到最大值24%。这意味着当推荐窗口50左右时,精确度和召回率综合表现效果最佳。
4 短视频推荐的优化
4.1方法优化的具体改进方案
在MovieLens数据集中,有大量噪声标签,例如“一个非常好的电影...你不得不看”“非常阴暗-不适合孩子”。这些标签更类似于评论而非标签。可能源于这些标签是从评论中抽取出来的,占了很大的比例。
对于相关的去噪研究,主要有以下几类方法:(1)基于模板方法(2)基于分类算法(3)基于统计学的方法
基于模板的方法可以手动的去定义噪声标签,然后将这些噪声标签过滤,很明显,这种方法花费人力较多,但是准确度高;基于分类的方法可以利用噪声标签训练集去训练自然语言学习机,通过学习,系统具备能力去识别噪声标签;基于统计学的方法,利用统计标签词长,或者标签其中含有的某些标记,例如句号,双引号等。这种方法实现起来较为简单,但是会过滤掉一些不是噪声的标签。
由于时间的原因,本文采用最基本的基于统计学的方法。因为这样足以证明去噪是否有效影响结果,我们的噪声判定为最简单的如果词数超过5个词(英文)则判定为噪声。
由于对标签冗余的考虑,我们将模型中加入噪声参数因子,从而过滤掉噪声标签。模型修改如(4-1)(4-2)所示。其中f(x)为噪声判定函数,模型的效率与去噪函数的去噪程度有关。
式(4-1)
式(4-2)
4.2改进结果验证
在数据验证中,我们将进行对照实验,实验组采用所提出的去噪判定函数,并进行去噪。对照组不进行任何去噪。实验结果如图5-1所示。在实验结果中,我们可以看出,在推荐窗口大小在10以内时,去噪产生了良好的表现。具体实验数据值在本文附录中。
在另一组实验报告中,研究人员认为做了以下论述:
“最终,我们检验了视频全局标签云中的标签质量对于性能的影响。由于空间的限制,我们只考虑当K=10,的情况。然后在两种不同的设定下比较TCC的性能:和。通过人工检查标签并移除证明是和视频不相关的标签,标签的质量被严格控制。对于所涉及的训练和测试集合,我们可以人工的定义出200个噪声标签,大概在实验中占整体标签的1%。”
“在图中,代表x个噪声标签被从原始数据中移除。有意思的是,对于所有用户组以及两个测试的候选用户池,TCC的表现没有受到标签质量的影响。如图所示,a和b分别表示在和两种情况下的性能结果。尽管这个结果可能现实我们方法的强壮性,但是也有可能是因为我们的噪声标签数量太少,他们对于实验中全体标签影响只有微小的一点。”
他们最终得到结论“对于噪声标签的强壮性”。
然而在本文中,经过我们的实验验证,去噪确实会对结果产生影响。并且这个影响在推荐窗口较小时效果显著,显然,这个对于短视频推荐系统是有必要的。因为一个视频网站对用户推荐视频数目在用户交互上最适宜的应该在10个以内。
5.总结
随着互联网的迅猛发展,用户每天产生大量数据,这使我们处于一个信息过载的时代。在短视频网站,如何为用户实现个性化推荐成为了研究的焦点。本文以处理视频推荐系统的计算量巨大为研究方向,提出了分布式计算的标签云模型。实验结果表明,我们的方案可以高效地解决短视频推荐的问题,比起一般的推荐系统主要有以下几点优点:(1)真正意义上解决了服务器的负担。传统通过对云计算的应用,并没有减少服务器资源的消耗,而是把服务器资源扩大后,分解计算负担。而我们的客户端计算,服务器只是数据中心。这样极大程度上减轻了服务器的负担;(2)更准确地完成推荐。我们针对于标签冗余问题对模型进行了改进,这样的改进是有意义的,我们也通过实验验证了噪声标签去除对于推荐准确度的影响;(3)易于实施性。由于整个推荐模块独立于其他视频模块,以及我们的推荐模块是基于分布式计算的,我们相信所提出的系统可以再支持标签的社交媒体网站轻松地搭建和实施;(3)更针对于短视频网站。无论是分布式计算的具体考虑还是我们标签云模型,都是针对于短视频网站的,这使我们的方案的应用更倾向于短视频的站点;(4)可扩展性强。对于相似度的计算方式亦或者标签去噪的函数都是可以根据具体方案定制的,这也保证了模型的可扩展性较强,有利于后续的学者进行研究。
对于实验结论总结的同时,我们也发现了当前的系统的不足:(1)在噪声去除方面,目前实验中所涉及的噪声过滤规则比较简单,是基于统计学模型的,如果进行更高程度的噪声过滤,会取得更高效的结果。更高程度的去噪可以从网站管理层面,或者分类算法等层面入手;(2)在工程实践方面,除了在核心模式上减轻服务器的负担,还可以通过服务器端的分布式计算,云存储等方面减轻服务器的负载。如果将两者结合,一定会取得更好的效果,然而我们的项目由于时间限制与资源有限,目前没有对服务器端云计算进行搭建;(3)对于推荐原理的实现,目前的推荐主要基于用户的兴趣进行,然而根据行为学的研究,用户对与一个推荐接受与否可能更多地考虑所推荐的物品是否含有其不感兴趣的成分。基于用户的差评去过滤也许是目前我们这个系统所没有考虑到的,是可以继续研究的方向。
6.引用
[1] 张多玛. 4G时代下网络短视频的发展现状及面临的问题[J]. 现代视听, 2014.
[2] Z. Huang, H. Chen, D. Zeng, Applying associative retrieval techniques to alleviate the sparsity problem in collaborative filtering, ACM Transactions on Information Systems 22 (2004) 116-142.
[3] M. J. Pazzani, D. Billsus, Content-Based Recommendation Systems, Lect. Notes Comput. Sci. 4321 (2007) 325-341.
[4] X. N. Lam, T. Vu, T. D. Le, A. D. Duong, Addressing cold-start problem in recommendation systems, in: Proceedings of the 2nd International Conference on Ubiquitous Information Management and Communication, 2008, pp. 208-211.
[5] Lin H Y, Su J M, Liu Y L, et al. OSCAR: an Online Scalable Adaptive Recommender for improving the recommendation effectiveness of entertainment video webshop[C]// Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference onIEEE, 2010:69-77.
[6] Lemire D, Maclachlan A. Slope One Predictors for Online Rating-Based Collaborative Filtering[J]. in SIAM Data Mining (SDM05, 2005:21--23.s
[7] Davidson J, Liebald B, Liu J, et al. The YouTube video recommendation system[C]// Proceedings of the fourth ACM conference on Recommender systemsACM, 2010:293-296.
[8] 罗欣, 夏德麟, 晏蒲柳. 基于词频差异的特征选取及改进的TF-IDF公式[J]. 计算机应用, 2005, 25(09):2031-2033. DOI:doi:10.3724/SP.J.1087.2005.02031.
[9] Hripcsak G, Rothschild A S. Agreement, the f-measure, and reliability in information retrieval.[J]. Journal of the American Medical Informatics Association, 2005, 12(3):296-8.
分享让更多人看到