移动新闻客户端个性化推荐系统的用户评价指标研究
摘要: 算法推荐是用户在大数据时代获取信息的重要渠道,推荐质量关乎用户的体验态度。如今在用户基数庞大的新闻客户端推荐系统背后,推荐质量参差不齐、用户心理感受被忽视,该领域缺乏一个通用的用户评价指标体系。因此,本研究以用户心理体验为导向,在文献回顾和深度访谈的基础上,编制出适用于新闻客户端推荐系统评价的初始量表,通过预调查和正式调查,并采用探索性因素分析、验证性因素分析等统计方法对调查结果进行检验分析,最终获取由“内容评价”、“系统评价”、“算法评价”、“交互评价”和“风险与控制评价”等五个一阶指标构成的新闻客户端推荐系统用户评价量表。研究进一步对新闻客户端用户的推荐系统体验态度以及有关影响因素进行了探索,最后从实践角度对新闻客户端推荐系统的优化方向提出建议。
关键词: 新闻客户端推荐系统;评价指标;量表修订;用户心理体验
一、前言
随着互联网的发展和普及,人类进入一个高度信息化的时代,网络中的海量信息一方面满足了用户对信息的需求,另一方面也增加了人们寻找有用信息的成本,出现所谓的“信息过载”问题。个性化推荐系统是解决信息过载问题的一个有效办法。目前学界与业界对推荐系统的研究大多关注推荐系统的技术算法,偏向技术导向,而以用户心理体验为视角的研究相对较少。评估推荐系统的质量过于强调算法的准确性,而忽略了从用户角度出发的消费者心理体验,并缺乏一个通用的推荐系统评价指标体系,这不利于推荐系统的优化和改进。
之所以要探讨“移动新闻客户端个性化推荐的用户评价指标”,一是因为在移动应用的评价研究中,视频软件、音乐软件等应用的个性化推荐系统的用户评价指标体系趋向完善,但是关于移动新闻客户端个性化推荐系统的评价指标研究相对较少,相关体系并未建立。二是因为目前移动新闻客户端的使用规模非常庞大,但是用户体验究竟如何、个性化推荐是否完善等问题一直无据可依,因此行业空白要求相关研究应当深入开展。
在理论上,本研究结合前人的研究,以用户满意度作为效度标准,在顾客感知价值理论和使用与满足理论的基础上,从用户角度出发,重点调查用户对移动新闻客户端个性化推荐系统的认知、态度和满意度,并通过量化数据的方式,梳理出具有显著相关性的用户评价指标。
二、文献综述
(一)关于个性化推荐技术层面的研究
个性化推荐是从20世纪90年代被作为一个独立的概念所提出。个性化推荐将用户的使用行为记录、保存为数据,通过信息过滤技术向目标用户推荐其感兴趣的信息,为用户提供个性化推荐服务。
一个完整的推荐系统由3部分组成:收集用户信息的行为记录模块、分析用户喜好的模型分析模块和推荐算法模块,其中,推荐算法模块是推荐系统中最为核心的部分。当前对个性化新闻推荐技术的分类主要有:基于内容推荐、协同过滤推荐和混合推荐。
个性化推荐系统最先应用于电子商务领域,目前,个性化推荐系统已经广泛运用于众多领域:如音乐、视频客户端等。学术界同样从不同角度对于个性化推荐系统有诸多研究,但是有关移动新闻客户端个性化推荐系统的研究较少。
(二)关于“个性化推荐系统评价指标”的研究
先前有关推荐系统评价的研究大多注重于评价算法预测打分的准确度。
Sean M. McNee,John Riedl,Joseph A. Konstan(2006)[1]认为根据算法得出的最准确的建议有时不是对用户最有用的建议,提出了新的以用户为中心的方向来评估推荐系统。文章回顾三个方面:推荐列表多样性,推荐意外发现以及推荐人中用户需求和期望的重要性。
Jones?& Pu(2007)[2]通过用户调查发现简单的界面设计,推荐项目的准确性、新颖性和愉悦性是网站之所以受欢迎的一些关键设计特征。
周涛(2008)[3]提出利用推荐列表的流行性和多样性对个性化推荐系统进行评价。个性化推荐系统对不同用户推荐的产品需要表现出相当的多样性。
Swearingen K,Sinha R(2008)[4]介绍两种新的指标度量推荐系统:新鲜性和意外性。推荐用户感到意外的产品会帮助用户发现一些他还没有发现的可能感兴趣的产品。
Pu?& Chen(2010)[5]开发了一个名为ResQue的模型(推荐系统的用户体验质量)用于评估推荐系统的感知质量,例如其可用性,实用性,界面和交互质量,用户对系统的满意度以及这些质量对用户的影响。
Guy Shani,Asela Gunawardana(2011)[6]提出推荐系统具有可能影响用户体验的各种属性,例如准确性,稳健性,可伸缩性等。
朱郁筱和吕琳媛(2012)[7]总结了电商网站推荐系统评价指标的最新研究进展,从准确度,多样性,覆盖率和新颖性等方面深入分析了各自优缺点和适用环境。
Iman Avazpour ,Teerat Pitakrat ,Lars Grunske,John Grundy(2014)[8]回顾一系列评估指标和用于评估推荐系统的一些方法。将评价指标分为16个不同的维度,例如正确性,新颖性,覆盖率、稳定性和扩展性等。
Joeran Beel,Stefan Langer(2014)[9]提出用户研究通常通过衡量用户满意度来对系统进行评价,用户对推荐系统的各个方面进行评级,例如,推荐的新颖性或权威性如何,或者对于非专家来说它们的适用程度如何。
Lei Li, Balaji Padmanabhan(2011)[10]认为有关新闻的个性化推荐系统评价应该要考虑到新闻特殊属性,例如短保质期和即时价值,提出了一种具有两级表示的可扩展的两阶段个性化新闻推荐方法,其在执行推荐时考虑新闻项的独有特征(例如,新闻内容,访问模式,命名实体,流行度和新近度)。
曾秀芹、曾洁和黄晨阳(2016)[11]针对电子商务的个性化推荐系统提出了内容评价、感知易用性、感知有用性、页面设计、互动评价、社会临场感、信心满意度、影响速度、风险及隐私管理11个因子。
Michael A. Beam(2016)[12]调查了个性化新闻推荐系统设计对选择性曝光、阐述知识的影响。担心个性化技术的扩散会使人们从具有挑战性的角度出发,从而降低公众舆论。
Natali Helberger, Kari Karppinen & Lucia D’Acun(2016)[13]认为搜索引擎,社交媒体以及传统媒体中的个性化建议越来越引起人们对多样性和公共话语质量的潜在负面影响的担忧。
三、研究结果
(一)新闻客户端个性化推荐系统评价指标量表内容与维度的探索
1. 研究方法
研究采用文献研究和定性研究相结合的方法,收集各评价指标,编制新闻客户端个性化推荐系统评价指标的初始量表。
(1)文献法
目前,针对新闻客户端个性化推荐系统用户评价方面的研究较少,本研究在电子商务、网站推荐、视频推荐等其他领域相关的文献资料基础上修订各评价指标,编制移动新闻客户端个性化推荐系统评价指标的初始量表,包括内容评价、系统评价、算法评价、交互评价、风险与控制评价五大指标。
(2)深度访谈
通过深度访谈,探究文献综述获得的指标是否适用于新闻客户端的个性化推荐系统,以及发现新的评价指标。选取10个人进行访谈,访谈对象涉及专家、普通用户。访谈问题围绕“受众从哪些方面对新闻客户端个性化推荐系统进行评价”、“受众对移动新闻客户端个性化推荐系统的认识”,不断丰富五个一级指标。在此基础上,寻找积极有效的效标,最终从“期待—确定”理论中找到效标。建构出适用于移动新闻客户端个性化推荐系统评价指标的框架体系,并将其应用于移动新闻客户端推荐系统的评估。
(3)数据分析
通过线上和线下双渠道发放问卷,线上渠道可以拓宽问卷的传播空间,不仅节省时间和人力,而且有利于增强被试者的多样性。线下渠道可以针对线上问卷的发放情况进行有效地补充和调整,有利于被试者在性别、年龄等方面的平衡。
2. 研究结果
研究结果表明对于新闻客户端个性化推荐系统而言,通过文献获取的评价指标基本适用,并且基于新闻客户端个性化推荐系统自身的独特性,本研究还补充了新的评价指标。最终确定了“内容评价”、“系统评价”、“算法评价”、“交互评价”、“风险与控制评价”五个一级指标,建构出适用于移动新闻客户端个性化推荐系统评价指标的框架体系如下表1。
表1 新闻客户端个性化推荐系统评价指标列表
(二)新闻客户端个性化推荐系统评价指标量表信效度检验
1. 研究目的
通过预调查,收集 100 个有效样本对评价指标的初始量表进行项目分析,并进行信效度的检验,进一步修订量表。
2. 研究方法
预调查通过方便抽样的方法进行问卷调查,一共回收 145 份问卷,剔除没有使用过移动新闻客户端以及回答不完整的受访者,最后得到有效问卷107 份。
调查问卷主要为上一步研究中形成的新闻客户端个性化推荐系统评价指标量表、 使用意愿量表、媒介使用行为和人口统计学问题。所有量表都采用李克特 5 点量表,按受众的感知强烈程度,分为完全不同意、不同意、不能确定、同意、非常同意,分别对应 1-5 分值,分值越小,表示越不同意,分值越大表示同意程度越高。
3. 研究结果
为了检验初始量表的信效度,研究利用 Cronbach’s α系数判断量表整体可靠性,预调研数据分析的结果显示,整体量表的克隆巴赫 Alpha 系数为0.809,大于 0.7,表明量表的信度水平较高。,进一步考察各个分量表的 Cronbach’s α系数以及单项-总量修正系数(CITC 系 数),最终,Cronbach’s α系数为 0.805,各个分量表的信度均大于 0.7,符合分量表信度要求。
采用主成分分析法提取因子,以特征值大于1为提取标准,对量表中各个变量进行探索性因子分析,共析出五个因子,且共同度全部大于0.5,旋转后的根特值分别为6.254、4.845、3.194、2.322和2.306,解释总体方差的 69.25%,所有题项的共同度均大于 0.5,且因子载荷均大于 0.4。但存在一些跨载荷题项,因此进行多次因子分析,除了因表意不清导致跨载荷的题项予以保留外,其他不符合要求的题项被逐项删除。最后的评价指标确定为五个,分别是“新闻价值”、“新闻广度”、“技术评价”、“交互评价”和“风险与控制评价”。
表2 新闻客户端个性化推荐系统评价指标因子分析结果
(三)新闻客户端个性化推荐系统评价指标分析
1. 研究目的
对于预研究修订过的正式量表再进行信效度的检验,将这个评价体系应用于新闻客户端个性化推荐系统的评估,并探索是什么因素将影响推荐系统评价得分的高低。
2. 研究方法
本研究采取问卷调查的方法,采用配额抽样的方法,根据人口统计学数据分布,在性别、年级、所在地域等变量进行配额抽样。运用线上线下相结合的调查方法,共回收476份问卷。问卷回收后,通过对问卷进行有效性筛选,剔除了无效问卷,剩余有效问卷417份。
3. 研究结果
(1) 调查对象人口分布特征
417个受访者中,男、女大约占比为45%、55%,样本性别比例较为均衡。受访者在年龄分布上主要以18-45岁的用户为主,占比45.8%,这部分群体无论是在手机的使用还是移动新闻客户端的使用上都是主要群体,因此可以作为移动新闻客户端个性化推荐系统的主要评价群体。55岁以上样本占比1.0%,这部分人群对媒介接触行为相比较其他群体少。
受访者的学历分布主要在本科及以上,占比比例为93.3%,总体来看受教育程度较高,因此相应的媒介素养也相对较高,对移动新闻客户端个性化推荐系统的认知比较全面,而且拥有自己的信息需求,有相应的能力成为评价主体。
本次调查的受访者的职业分布主要是“企事业单位”和“学生”,分别占比42.4%和41.2%,总共占八成。这部分群体不仅有更强的新闻需求,而且拥有比较充足的新闻阅读时间,因此有机会长期使用移动新闻客户端。
在行业分布方面,样本多数来自学校和媒体行业,包括学生、教师和媒体从业者。一方面是因为滚雪球的抽样方式,另一方面是在校人员和媒体从业者更具新闻阅读的主动性。
(2)用户使用行为特征
样本中每次使用新闻客户端时长在15分钟以下的受访者最多,比例为43.6%;使用时长在15-30分钟的人较多,占比为40.0%;使用时长超过60分钟的人最少,占比5.5%。不同性别样本对于每次使用新闻客户端的时长呈现出显著性(P<0.05)。
不同年龄样本对于每次使用新闻客户端的时长呈现出显著性(P<0.05),通过百分比对比差异可知,18-25岁样本选择15分钟以下的比例58.64%,会明显高于平均水平43.65%。46-55岁选择15-30分钟的比例50.94%,会明显高于平均水平40.05%。55岁以上选择30-60分钟的比例50.00%,会明显高于平均水平10.79%。
总结可知不同性别、年龄、文化程度与职业的样本在新闻客户端每次使用时长上存在显著差异。不同性别、年龄、职业的样本在新闻客户端的使用频率上存在显著差异。
四、模型预测
以新闻价值、新闻广度、技术设计、交互性和风险与控制作为自变量,未来使用意愿为因变量,建立用户未来使用意向的预测模型,如下图1.4所示:
(一)研究结果:
以新闻价值、新闻广度、技术设计、交互性和风险与控制作为自变量,以未来使用意愿为因变量,以逐步回归方法进行多元线性回归分析,并以显著性水平小于等于0.05为变量进入标准,以显著性水平大于0.1为剔除标准。逐步回归过程剔除了风险与控制,保留了新闻价值、新闻广度、技术设计和交互性。
从下表可以看出,模型R平方值为0.648,意味着新闻价值,新闻广度,技术评价,互动性可以解释满意度的64.8%变化原因。对模型进行F检验时发现模型通过F检验(F=189.320,P<0.05),也即说明新闻价值,新闻广度,技术评价,互动性中至少一项会对满意度产生影响关系,模型公式为:未来使用意愿=-0.005 + 0.454*新闻价值 + 0.147*新闻广度 + 0.399*技术评价 + 0.084*互动性。
另外,针对模型的多重共线性进行检验发现,模型中VIF值全部均小于5,意味着不存在着共线性问题;并且D-W值在数字2附近,因而说明模型不存在自相关性,样本数据之间并没有关联关系,模型较好。
最终总结分析可知:新闻价值, 新闻广度, 技术评价, 互动性全部均会对未来使用意愿产生显著的正向影响关系。模型公式为:未来使用意愿=-0.005 + 0.454*新闻价值 + 0.147*新闻广度 + 0.399*技术评价 + 0.084*互动性。
五、结论与讨论
新闻价值,新闻广度,技术评价,互动性均会对未来使用意愿产生显著的正向影响关系。在对移动新闻客户端未来的使用意愿影响程度上,新闻价值的影响作用最大,这也与“内容为王”的行业理念相一致。新闻客户端的技术设计的影响作用也不容忽视,用户对体验越来越看重。在新闻的广度和交互性等方面,受众越来越偏向多样化题材的新闻接触,同时有着比较强烈的分享欲望和社交需求,因此也应当受到重视。在模型中,风险与控制并没有对使用意愿产生明显的影响作用,综合前文聚类分析,较多用户样本表示出“高使用意愿”,这可能是因为移动碎片化时代,移动新闻客户端能够满足用户的快速信息需求。
而在本次研究中,风险与控制指标并没有对新闻客户端的个性化推荐系统得分产生作用,这可能是因为新闻客户端个性化推荐系统发展时间较短,目前对于新闻客户端个性化推荐系统的伦理研究更多集中在学术层面。
本研究的不足之处在于抽样过程不够严谨,部分问卷是通过线上发放得来,虽然在数据分析前的数据处理环节有对这部分样本进行剔除,但总体来说可能会影响到本次研究的人口统计学等方面的结果。因此,笔者会在下一步的研究中尽可能的弥补这方面的不足。未来的研究方向可能会进一步扩大样本量,同时严格控制样本的获取并针对个性化推荐系统及其带来的潜在风险作更深一步的研究。
参考文献:
[1] P Resnick, H R Varian. Special Issue on Recommender Systems. Ai Communications, 1997, 21(2-3):95-96.
[2] S. S. Anand, S. S. Anand. Personalization on the Net Using Web Mining: Introduction. Comm Acm, 2000, 43(8):122-125.
[3] 刘建国,周涛,郭强等.个性化推荐系统评价方法综述.复杂系统与复杂性科学,2009,6(3):1-10.
[4] J Bobadilla, F Ortega, A Hernando. Recommender Systems Survey. Knowledge-Based Systems, 2013, 46(1):109-132.
[5] U Shardanand, P Maes. Social Information Filtering: Algorithms for Automating “Word of Mouth”. Sigchi Conference on Human Factors in Computing Systems. ACM Press/Addison-Wesley Publishing Co. 1995:210-217.
[6] A L Uitdenbogerd, R G V Schyndel. A Review of Factors Affecting Music Recommender Success. The Proceedings of 3rd International Conference on Music Information Retrieval, October, 2002.
[7] 谭学清,何珊.音乐个性化推荐系统研究综述.数据分析与知识发现,2014,30(9): 22-32.
[8] M Sunitha, T A Lakshmi.Session Aware Music Recommendation System with Matrix Factorization Technique-SVD. Management Science, 2015, 30(4):174-181.
[9] S M Mcnee, J Riedl, J A Konstan. Being accurate is not Enough: How Accuracy Metrics have Hurt Recommender Systems. Extended Abstracts Proceedings of the 2006 Conference on Human Factors in Computing Systems, April. 2006:1097-1101.
[10] G Shani, A Gunawardana. Evaluating Recommendation Systems. Recommender Systems Handbook, 2011:257-297.
[11] I Avazpour, T Pitakrat, L Grunske, et al. Dimensions and Metrics for Evaluating Recommendation Systems. Recommendation Systems in Software Engineering. Springer Berlin Heidelberg, 2014: 245-273.
[12] 曾秀芹,曾洁,黄晨阳. 个性化推荐系统评价指标体系的实证研究. 现代广告学术季刊, 2017,(6): 46-55.
[13] P Pu, L Chen, R Hu. A User-Centric Evaluation Framework for Recommender Systems. ACM Conference on Recommender Systems, 2011:157-164.
[14] B P Knijnenburg, M C Willemsen, Z Gantner, et al. Explaining the User Experience of Recommender Systems. User Modeling and User-Adapted Interaction, 2012, 22(4-5):441-504.
[15] Y C Zhang, D Quercia, T Jambor. Auralist: Introducing Serendipity into Music Recommendation. ACM, 2012:13-22.
[16] P Pu, L Chen, P Kumar. Evaluating Product Search and Recommender Systems for E-commerce Environments. Electronic Commerce Research, 2008, 8(1-2):1-27.
[17] K Swearingen, R Sinha. Interaction Design for Recommender Systems. Designing Interactive Systems ACM, 2002.
[18] P Pu, M Zhou, S Castagnos. Critiquing Recommenders for Public Taste Products. ACM Conference on Recommender Systems. ACM, 2009:249-252.
[19] N Jones, P Pu. User Acceptance Issues in Music Recommender Systems. EPFL Technical Report HCI-REPORT, 2009, Epfl.
[20] D Kotkov, S Wang, J Veijalainen. A Survey of Serendipity in Recommender Systems. Knowledge-Based Systems, 2016, 111:180-192.
[21] W H Delone, E R Mclean. The DeLone and McLean Model of Information Systems Success: A Ten-Year Update. M. E. Sharpe, Inc. 2003.
[22] J Kirakowski, M Corbett. SUMI: the Software Usability Measurement Inventory. British Journal of Educational Technology, 1993, 24(3):210-212.
[23] S Y X Komiak, I Benbasat. The Effects of Personalization and Familiarity on Trust and Adoption of Recommendation Agents. Mis Quarterly, 2006, 30(4):941-960.
[24] D S Kempf, R E Smith. Consumer Processing of Product Trial and the Influence of Prior Advertising: A Structural Modeling Approach. Journal of Marketing Research, 1998, 35(3):325-338.
[25] L Chen, P Pu. Interaction design guidelines on critiquing-based recommender systems. User Modeling and User-Adapted Interaction, 2009, 19(3):167.
[26] N Tintarev, J Masthoff. A Survey of Explanations in Recommender Systems. IEEE, International Conference on Data Engineering Workshop. IEEE, 2007:801-810.
[27] 刘蓓琳.基于用户满意度的电子商务个性化推荐评价研究.中国物流与采购,2012(14):68-69.
[28] 江娟,吴琼鳞,马春梅等.网络消费者满意的构成要素及其作用效果研究,2014,(17): 87-95.
[29] 黄鼎隆,饶培伦,韩盈秋.网络购物环境中信息安全因素对用户行为的影响.人类工效学,2008,14(1):22-24.
[30] 吴艳,温忠麟.结构方程建模中的题目打包策略.心理科学进展,2011,19(12):1859-1867.
[31] 吴明隆.结构方程模型:AMOS的操作与应用.重庆大学出版社,2009.
分享让更多人看到
推荐阅读
相关新闻
- 评论
- 关注