基于关键词的文本内容过滤算法的研究与应用

姜丹、黄予静、杨凯玥

2018年02月12日10:41  来源:人民网研究院
 

摘要:本文对目前文本过滤技术进行了调研,并在此基础上利用空间向量模型作为用户需求模板,使用余弦距离计算文本相似度,采用K-means算法进行文本聚类分析效果优化,提出了基于关键词的文本内容过滤模型,能够为人民网用户个性化推荐新闻、广告、文章等信息,缩短信息检索时间,最大程度为用户提供其感兴趣的内容,创造经济与社会价值。

关键字:文本内容过滤,推荐系统,聚类,K-means算法

1 引言

人民网是以新闻为主的大型网上信息发布平台,集中了现有的电子媒体的形式创新,是互联网上最大的中文和多语种新闻网站之一。人民网的新闻报道以权威性、及时性、多样性和评论性为特色,报道内容包括政治、经济、法律、新闻、科学文化及广告等方面,内容丰富且具有权威性。

近年来,个性化推荐已成为各大主流网站的一项必不可少的服务,但与电子商务网站相比,新闻的个性化推荐水平仍存在较大差距。人民网的用户数量巨大,某些年龄段的用户数量甚至多于购物网站。如果能够高效率地挖掘用户的潜在兴趣,并进行个性化的新闻与信息推荐,能够产生巨大的社会价值。

在人民网下一步发展战略中,新媒体融合论坛中副总编辑卢新宁等人阐述了发展方向,其强调新创新的作用及其内容生产,强调了对人民网、手机人民网、人民网客户端、数据中心等平台的建设。基于关键字的文本内容过滤算法迎合了人民日报的新进展,立足于人民网为用户个性化推送新闻、广告等信息,可为用户提供具有指导性的建议,也能够为第十九次全国人民代表大会宣传党的路线方针、推进社会主义新闻理论创新、弘扬时代精神,为祖国历史和民族文化作出贡献。

本文基于关键字的文本过滤技术,通过用户特征关键词从海量信息中快速有效地找到用户感兴趣的新闻,重构了用户连接,实现了用户观点的分享传播,可以有效地为用户个性化推荐新闻。采用内容过滤算法,利用其特点建立用户之间连接,如移动客户端、网络交流、数据采集等,根据已有用户已经建立的用户感兴趣实体,对实体进行相似度推荐。

2 技术背景

目前智能推荐系统的主要推荐技术包括基于规则的推荐与基于内容过滤的推荐,基于规则的推荐主要通过基础判断进行分流从而得出相关结论,当处理问题较为简单,判断规则较少的时候,系统能够迅速处理并获得结论,然而随着问题的细化和问题规模的扩大,系统对于判断将会增加处理时间,同时,也不利于系统的规则扩展和维护。在内容过滤中由于网络中主体信息为文本,所以内容过滤研究主要针对信息文本展开。

2.1文本过滤相关技术

内容过滤系统中使用了相关的文本过滤技术。文本过滤(Text Filering)是指计算机根据用户对信息的需求,从大量的文本流中寻找对应信息或剔除不相关信息的过程。对用户需求的判断和所采用方法使之与需求相适应对提升文本过滤的效果十分重要。

在国外文本过滤相关技术研究方面,Belkin和Croft提出了用户特征过滤对文本过滤系统的影响和积极意义;Lam等人对个人兴趣飘逸探测算法进行研究;Yang和Chute基于实例和最小平方利益的线性模型改进了文本分类器;Mosafa构造了智能信息过滤的多层次分解模型。国内文本过滤相关研究包括,刘永丹和曽海泉等人提出了基于语义分析的倾向性文本过滤;姚天顺等构造了基于语义框架的中文文本过滤模型;程显义和杨天明等人对语义倾向性的文本过滤进行了研究;黄萱菁等构建了基于向量空间模型的文本过滤系统。

文本过滤在实现技术上主要借鉴和使用自动检索、自动分类、自动标引等信息自动处理的方法和技术。根据文本过滤对过滤内容的不同分为用户特征过滤和安全过滤,本文针对的内容主要为用户特征过滤。

2.1.1文本过滤过程

文本过滤有五个步骤:(1)待过滤的文本的表示(2)确定用户需求模板:通常包括过滤特征描述、数据特征表示;(3)用户需求与未过滤文本的匹配;(4)获取效果匹配反馈;(5)根据匹配效果反馈修改需求模板,以上过程如图2-1所示。

对原始的数据流进行处理得到待过滤的文本表示,利用文本匹配进行相似度计算,通过机器学习过程不断训练模型,以人为干预的模式进行监督不断优化需求模板,提升过滤处理结果的精确度。

2.1.2文本过滤核心工作

文本过滤的核心工作主要针对用户需求模板和文本匹配展开。

用户需求模型采用的方法主要包括向量空间模型、预定义主题词、层次概念集、规则和分类目录等方法。复旦大学的吴立德教授和黄萱菁博士等人研究的文本过滤系统是基于向量空间模型提出的,武汉大学信息资源研究中心的张玉峰教授和蔡皎洁博士研究得到web环境下基于用户兴趣本体学习的文本过滤研究同样基于空间向量模型,东北大学的姚天顺教授和林鸿飞博士等人提出了基于示例的中文文本过滤模型,在该模型中也采用了向量空间模型。与其他用户需求模板方法相比较,向量空间模型具有表示明确计算便捷的特点,使各种相似运算和排序成为可能。

文本匹配过程中,计算相似度是判断文本是否符合用户需求可以看作分类问题。常用的分类方法有:中心向量算法、朴素贝叶斯算法、支持向量机分类算法、基于KNN的文本分类算法。

(1)中心向量算法:利用向量空间模型,划分为不同的训练类别进行计算,将相似度高的划分为一个类,再进行标准化处理,最后得到相似度值。设训练集合为C,如式2-1所示。

分类的时候,对于一个新文本,在空间模型的基础上,生成表示该文本的向量,通过对该向量与各类别特征向量的计算比较得出相似度,并将该文本划分到与其相似度最大的类别中去。向量相似度的计算方法主要有两种,若用x,y代表向量,xi,yi代表向量分量。

a欧几里德距离如式2-3所示。

dis(x,y)值表示向量与类别特征向量的距离,值越小表示距离越近,向量相似度越高。

b向量夹角如式2-4所示。

cos(x,y)值越高表示夹角越小,向量相似度越高。

中心向量算法在类与类之间相似度相差较大的时候有较好的分类效果,实际应用中,类与类之间的差异可能并不是那么突出,并且实际数据的分布是储存在偏差的,这样将会导致算法判断失误,分类效果不好。

(责编:温静、赵光霞)

相关专题

推荐阅读

全国党报网站总编辑2018贺新春
  辞旧丹鸡鸣盛世,迎新瑞犬颂神州。新春佳节即将来临,人民网总编辑余清楚以及全国多家党报网站总编辑共同为网友们送上新春祝福!祝大家新的一年万事顺意,节节进步!
【详细】全国党报网站总编辑2018贺新春   辞旧丹鸡鸣盛世,迎新瑞犬颂神州。新春佳节即将来临,人民网总编辑余清楚以及全国多家党报网站总编辑共同为网友们送上新春祝福!祝大家新的一年万事顺意,节节进步! 【详细】

为网络空间“岁月静好” 网信工作不骛虚声
  2017年,在习近平总书记网络强国战略思想指引下,网络安全和信息化工作各项工作扎实推进,网上主旋律高昂,正能量强劲,各项法律法规进一步完善,网络空间更加清朗,网络空间国际话语权和影响力明显提升。
【详细】为网络空间“岁月静好” 网信工作不骛虚声   2017年,在习近平总书记网络强国战略思想指引下,网络安全和信息化工作各项工作扎实推进,网上主旋律高昂,正能量强劲,各项法律法规进一步完善,网络空间更加清朗,网络空间国际话语权和影响力明显提升。 【详细】