人民网
人民网>>传媒>>人民网奖学金>>邮电2017

基于关键词的文本内容过滤算法的研究与应用【3】

姜丹、黄予静、杨凯玥
2018年02月12日10:41 | 来源:人民网研究院
小字号

4.2 基于关键词的文本内容过滤模型

大部分文本内容过滤模型采用特征匹配与过滤模型,本文提出的过滤模型以从用户行为分析模型中提取的特征关键词为输入,与数据库中的文本特征进行比对,将相似度在某范围内的信息筛选出来作为推荐系统的输出。但同时需要考虑用户阅读审美疲劳程度,内容相似度大的新闻不应该同时推荐给读者。例如,某读者行为的特征关键词为“十九大、党委、博士论文、化妆品”,根据相似度筛选出的文本可能大多数为十九大相关的新闻与文章,如果单纯将相似度高的文本推荐给读者,则读者看到的推荐则均为十九大会议内容,这样并未体现出个性化推荐的良好效果。我们希望推荐给读者的内容应包含各领域,因此,本文模型中对筛选出的目标数据进行聚类,每一类中提取出与用户行为特征相似度最高的内容进行推荐,具体流程如图4-2所示。

如图4-2,本文所设计的文本内容过滤模型主要分为以下三个步骤:

(1) 特征比对:用户特征关键词组成用户需求特征向量,提取待过滤文本特征组成文本特征向量,计算用户需求特征向量与文本特征向量的相似度,选取相似度大于预定参数m的文本,组成目标文本队列;

(2) 内容聚类:使用K-means方法对所有目标文本进行聚类分析,产生了k个簇集,每个簇集选取特征比对时相似度最高的文本,进入最终的推荐队列,这样一次过滤后筛选出k个可推荐文本;

(3) 重过滤:当预推荐文本个数s大于每次过滤所筛选出的文本个数k时,需要进行多次过滤,为减小模型的随机性,将重过滤的起始点设在目标对列的整合上,即所有前一次或前几次未进入推荐队列的目标队列文本作为新的目标文本,重新进行聚类与提取,当推荐队列的文本数量达到预设数量s时则停止循环。

4.3 特征比对算法设计

从用户行为分析模型中所得用户特征关键词组成用户特征向量X,采用中文分词机制将人民网中的新闻等类型的文本进行分词,去停用词后进行词频计算,筛选出文本关键词组成文本特征向量Y,使用余弦距离sim(X,Y)计算两个向量的相似度,计算方法如式4-1。

式4-1中X?Y为两个向量的积,‖X‖?‖Y‖为两个向量的长度乘积,余弦距离越接近于1,两个文本越相似。为筛选出与用户特征关键词相似性较高的文本,需设置检验计算的阈值,阈值为0.5到1之间的一个数值,余弦相似度大于此阈值则文本进入目标序列。

4.4 目标文本内容聚类算法设计

本文选用K-means方法对目标文本进行聚类分析,聚类是一种无监督的机器学习方法,被用于模式识别、数据挖掘等领域。自下而上的K-means方法简单、快速,其聚类的结果受初始质心与聚类数目影响,本文所涉及的场景可通过关键词数量及文本类别确定聚类数目,因此本文选取K-means做目标文本的聚类分析。

本文的聚类算法计算过程如表1所示,K-means算法中的k值为聚类结果中簇集的个数,因为用户特征关键词的个数是确定的,因此直接将关键词个数作为聚类簇集的个数;随机选择k个簇集的中心(即质心),用式4-1计算各文本特征向量X与质心向量Y的余弦相似度。

余弦距离越接近于1,文本与质心越相似,文本与哪个质心最相似则将此文本归于此质心所在簇集中。

此算法的目标函数为最大化余弦距离和,如式4-2所示,当目标函数达到最优则算法停止。

经过K-means算法的聚类分析,最终得出k个文本簇集,每个簇集代表一种类型的文本,从每个簇集平均选出推荐给用户的文本组成最终的推荐队列。

5 总结与展望

本文提出的过滤模型是个性化推荐系统的核心,由于所选用的文本相似度计算与聚类算法具有普适性,因此该模型不仅可以应用于人民网的个性化推荐系统,还可应用在人民网的检索系统、敏感信息过滤处理等系统。不同的使用环境设置不同的参数与阈值,能够使此模型达到最良好的使用效果。 

(责编:温静、赵光霞)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部