基于潜因子评分反馈学习的餐馆推荐
摘要:当今社会,在人们外出就餐时,就餐的选择不仅仅取决于味道,同时也受到许多其他因素的影响。因此,餐厅推荐中关键的问题便是,发掘用户选择时的潜在影响因素。本文根据当下主流餐饮社交网络的数据进行分析,在个性化推荐技术模型与算法上提出了新的模型,一方面,对于未来智能生活的餐饮推荐服务方式及其网络技术做出了探索与说明,另一方面,对大众餐饮消费文化从数据挖掘角度做出技术探索与说明,可后续为人民网解读大众餐饮消费心理做技术角度支撑。本文挖掘用户选择餐厅时所关心的、潜在的主题因素,并将其应用在餐馆推荐中。我们使用LDA模型提取了餐厅的潜在主题特征,根据潜在主题因素分布特征进行评级反馈学习以及计算相似度,并据此做出评级预测和餐厅推荐。本文利用Yelp数据集中的评论数据进行了实验,探索了算法的性能和最优主题数K。实验结果表明,该算法在评级预测方面取得了一些进展和成果。从一定程度上来说,将潜在主题分布应用于餐厅推荐问题可以解决数据稀疏性问题,减少计算维度,提高评级预测的准确性。
关键词: 潜在因素; 评级反馈; 餐厅推荐; LDA
1. 简介
近年来,餐饮业发展迅速,许多餐厅在餐饮,餐饮服务和餐饮装饰风格方面进行了创新尝试。 年轻人在选择餐厅时考虑的因素也变得多样化,而不仅仅是只关注食物的味道了。一些餐饮社交媒体提供了多方面评级机制,例如,大众点评网提供环境、品味、服务三方面评级服务。在这样的评级机制下,用户评级信息在反映餐厅特征方面仍然显得力不从心。因此,当下需要一个多维的、包含多种影响因素评级信息来表示餐厅的特征。
食品专家可以对餐具进行详细分类,但很难控制分类的粒度,也很难为相应种类的餐厅设置权重值。传统的基于物品的协调过滤推荐算法由于基于用户的历史行为进行推荐常常可以给出相关解释,这些解释通常会让用户更加信服。本文试图建立一个模型,考虑餐厅的潜在的、多样化的因素和客户的历史行为,为客户提出有效的餐厅推荐。
以前的研究表明,用户提供的评论包含的信息比常见推荐系统中处理的评级信息更丰富[1],因此,本文着重从用户产生的评论中挖掘各种潜在的餐厅主题因素。
本文提出了一种基于LDA的协同过滤算法,该算法考虑了评论中潜在的主题因素挖掘和客户的历史评级反馈,并进行了实验验证了算法的有效性。最终的成果为:1)在向用户推荐餐厅时,不仅考虑口味因素,同时也考虑各种潜在的主题因素;2)提取餐厅的潜在主题分布特征,并依此生成潜在的K-主题评级矩阵,进而分析用户的偏好。3)应用提取得到的多种潜在因素来进行餐馆推荐。
本文分为七个部分。第一部分介绍了问题的起源和背景,第二部分介绍了进行的相关工作。而到了第三部分,进行了问题的定义;第四部分则是描述了工作中提出的模型。第五部分,详细描述了实验的整体并对实验结果进行了分析。到了第六部分,是最终的结论和下一步要进行的工作。最终则是引用的文献列表。
2. 相关工作
Lihua Sun 等人在对在线中文评论进行情感分析的基础上,将不确定性理论引入餐厅推荐系统,并以此来挖掘用户的意见[1]。Sonya Zhang等人通过建立基于消费者群体餐厅评论的推荐系统,提出了内容过滤推荐系统,该系统评估个人在线评论,并为细分出的五个消费者类型分配相应的数值得分[2]。这些论文都在一定程度上启发了本文的思路。为了挖掘各种潜在的主题方面和特征,本文使用了基于挖掘用户的评论的方法来制作餐厅特色细分。
Chao Li,Srn Feng等应用LDA和WordNet组合算法挖掘研究课题的动态,取得了很好的成果[3]。Maha Amami等人将基于LDA的方法应用于科学论文推荐[4]。Shinjee Pyo等在统一的主题建模框架中,使用LDA模型分析电视用户群和电视节目,将类似的电视用户和关联描述词同时用于观看电视节目[5]。LDA模型在潜在的主题特征中表现出很大的优势,并且成功指出了适当的类别。
以往的研究表明,餐厅顾客评论可以分为多种因素,如服务质量,产品质量,菜单多样性,价格和价值,氛围等[2]。Yifan Gao等人建立了一个基于新模型的餐厅推荐系统,该模型捕获评论和数字评级中隐藏方面之间的相关性,并通过实验证明了其优势[6]。因此,建立一个考虑了从评论和客户的历史行为挖掘的潜在因素的、基于LDA模型与item-CF的餐厅推荐系统是值得和可行的。
3. 问题定义
为了解决这个问题,本文试图使用修改后的item-CF来预测评级。首先,在传统的item-CF中,使用用户-项目评级矩阵来计算项目之间的相似性。然后,选择与目标项具有最大相似度的前K个项,以构造邻居集。最后,通过邻居集的已知评级的加权和来预测目标项的未知评级。在本文中,我们试图利用评论中的潜在因素特征来计算项目之间的相似性,而非使用用户-项目评级矩阵的特征。
4. 基于LDA的推荐模型
在本节中,本文首先通过LDA主题模型挖掘评论来提取餐馆潜在的主题分布特征。随后,我们介绍相似度的计算。最后,我们进行评级预测和生成推荐。
4.1. 潜在主题分布特性
本文试图通过挖掘用户关心的潜在因素构建潜在的主题分布特征,并以此来表示餐厅的特征。具体来说,为了找到潜在的、用户关心的因素,本文致力于找到用户经常评论的主题,并推断该主题在餐厅的评论中评论的频率。为此,本文采用LDA主题模型从餐厅评论中获取潜在的主题分布。
4.2. 相似度计算
潜在主题分布特征反映了用户关心的主题以及用户关注此主题的强度,但无法反映主题是积极还是消极的。因此,我们将评级分解到K个潜在主题分布,获得项目-K主题评级矩阵。在某种程度上,项目-K主题评级矩阵与用户对餐厅的各个方面的详细评级信息基本相同。
4.3. 评分预测与生成推荐
在使用项目K主题评级矩阵计算餐厅之间的相似性之后,使用基于项目的协同过滤算法来预测评级并且使得Top-K餐厅形成推荐列表。对于用户u和餐厅i,评级预测遵循以下公式:
5. 实验
5.1. 数据集
本文使用Yelp数据集挑战赛第12轮提供的Yelp数据集进行了实验。整个数据集包括10个大城市的18.8万个本地企业和1518169个用户对188593个企业的5996995条评论的信息。其中,我们使用评论数据中的前25176条评论记录进行了实验,其中包含来自10,000个用户的18,479家餐厅的评级和相应评论。
首先,我们将同一餐厅的评论合并到同一文档中。接着,使用了nltk库预处理文档。然后,使用sklearn库为文档构建LDA模型,以获得餐厅的潜在主题分布,并将评级分解到K-主题上后计算餐厅之间的相似性。最后,我们将相似性应用于协同过滤算法,用于评分预测和Top-K推荐。本实验使用MAE(平均绝对偏差,见方程2),RMSE(均方根误差,见方程3),FCP(协调对的分数[7])来用5折交叉验证测量算法的评级预测的准确性。(我们使用数据集的80%作为训练数据,以及作20%为测试集)。MAE反映了评级预测算法的绝对误差水平,RMSE反映了准确预测评级的稳定性,而FCP表示预测结果与实际数据之间的一致性对数。
5.2. 最优主题数K
本文中,相似度的计算取决于从LDA模型中提取的潜在主题分布,主题数K对算法的准确性有一定的影响。因此,本实验探索了最优主题数K,进行了K∈[6,38]的实验,其中和K∈N且步长为4。实验结果如下图所示(见图2和表1)。
如图所示,当K值增加时,MAE和RMSE的值减小,这意味着算法的准确性增强,算法性能的稳定性增强。随着K的增加,FCP的值在很小的范围内波动,这意味着一致对数的数量没有显着增加。结果,K的变化对提高准确评级预测的一致性水平几乎没有影响。总体而言,K的增加可以显着降低MAE和RMSE,但是对FCP的变化没有显着影响,这意味着个体得分预测的准确性和稳定性将得到提高,但总体预测一致性不会有很大提升。
另一方面,当K的值增加时,这些主题的可解释性降低并且算法的计算复杂性增加。基于上述分析,对于主题K∈[6,38],其中K取值依次为步长为4的自然数,最优K为38。
5.3. 算法性能
在相同条件下,本文采用传统的基于项目的协同过滤算法对相同数据进行实验。结果如下:MAE=0.6083, RMSE=0.9334, FCP=0.4765。与传统的协同过滤算法相比,该算法的MAE和RMSE一般较小,因此可以说提高了算法的准确性和稳定性。该模型中的FCP较大,因此,该算法的一致性得到了改善(见表2)。利用该算法,可以提高个体得分预测的准确性和稳定性,并在一些内容上提高整体预测一致性。我们可以得出以下结论:LDA主题模型在餐厅特征提取和餐厅推荐以及文本相关推荐中表现出良好的性能。
5.4. 实验结果与讨论
本文使用项目K主题评级矩阵来计算相似性,针对某些内容,解决由稀疏用户项评级矩阵引起的数据稀疏性问题,并将计算维度从用户数减少到主题数。项目K主题评级矩阵描述了来自K方面的餐厅的特征,其比用户评级矩阵更详细,因此带来更准确的相似性和评级预测。
6. 结论
本文从挖掘用户关心的多种潜在主题的角度研究了餐厅推荐系统。我们设计了潜在主题分布特征和项目-K主题评级矩阵,以整合潜在因素和评级记录中包含的特征,并将它们应用于相似度计算。本文还进行了一项实验,以探索最佳主题数K,并将性能与基线算法-Item CF进行比较。根据实验结果,我们可以得出结论,挖掘用户关心的潜在方面可以帮助解决餐厅推荐的问题。
7. 参考文献
[1] Lihua Sun, Junpeng Guo, Yanlin Zhu. Applying uncertainty theory into the restaurant recommender system based on sentiment analysis of online Chinese reviews[J]. World Wide Web,2019,2019, 22(1): 83-100
[2] Sonya Zhang, Mohammad Salehan, Andrew Leung, Ishmene Cabral, Navid Aghakhani. A Recommender System for Cultural Restaurants Based on Review Factors and Review Sentiment[A]. AMCIS[C].2018
[3] Chao Li, Sen Feng, Qingtian Zeng, Weijian Ni, Hua Zhao, Hua Duan:Mining Dynamics of Research Topics Based on the Combined LDA and WordNet[J]. IEEE Access,2019,7: 6386-6399
[4] Maha Amami, Gabriella Pasi, Fabio Stella, Rim Faiz.An LDA-Based Approach to Scientific Paper Recommendation[J]. NLDB,2019: 200-210
[5] Shinjee Pyo, Eunhui Kim, Munchurl Kim. LDA-Based Unified Topic Modeling for Similar TV User Grouping and TV Program Recommendation[J]. IEEE Trans. Cybernetics,2015,45(8): 1476-1490
[6] Yifan Gao, Wenzhe Yu, Pingfu Chao, Rong Zhang, Aoying Zhou, Xiaoyan Yang:A Restaurant Recommendation System by Analyzing Ratings and Aspects in Reviews. DASFAA,2015,(2) : 526-530
[7] Koren Y , Sill J. Proceedings of the Twenty-Third international joint conference on Artificial Intelligence[A].Collaborative filtering on ordinal user feedback[C]. 2013.
分享让更多人看到
推荐阅读
相关新闻
- 评论
- 关注