人民网
人民网>>传媒>>人民网奖学金>>邮电2017

基于关键词的文本内容过滤算法的研究与应用【2】

姜丹、黄予静、杨凯玥
2018年02月12日10:41 | 来源:人民网研究院
小字号

(2)朴素贝叶斯算法(NB):根据贝叶斯定理,根据测试集中各种情况在各个类别中的概率,再根据测试文本的特征值推测属于一个类,将该文本向量归到概率最大的分类中去。该观点的基本前提是,文本的特征值是相互独立的,在这个假设条件能够以指数级程度降低分类的复杂性。

如果测试训练数据能准确表现分类情况以及特征值的概率情况,假设特征选择是准确而全面的,同时不考虑权重的影响,朴素贝叶斯算法在作为分类器时能达到最好的分类效果。一般,概率参数和密度函数是难以获取的,因此该算法需要通过统计或者测试进行准备工作和分类器训练。在应用中,该分类器常作为比较标准进行校准分类器。

(3)支持向量机分类算法:是一种基于二类分类模型的算法。支持向量机的学习策略为间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页随时函数的最小化问题。支持向量机学习方法包含构建由简至繁的模型:线性可支持向量机、线性支持向量机及非线性支持向量机。

其基本思想是建立一个最优决策超平面,使该平面两侧距离最近的两类样本之间的距离最大,从而对分类问题提供了良好的泛化能力。对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,并不断进行训练,直到所有点位于平面两侧。这一系列的变换是通过定义合适的内积函数(核函数)进行的,变换得到满足条件的平面可能多个,SVM在保证分类精度的同时,寻找距离这些平面距离最大的平面,得到最优分类。SVM的基本思想如图2-2所示。

图2-2中,分类线H将存在的黑点和白点两个类分开,白点和黑点中距离分类线H最近的点构成平行于H的线H1和H2所构成的距离为分类间隔,表示为2/(||w||)。当分类间隔值最大时存在的分类线成为最优分类线。

SVM适合小样本集的分类,特别是文本分类,在非线性和高维模式识别中表现出许多优势。但该算法的缺点是它仅能解决二分问题。

(4)基于KNN的文本分类算法:是模式识别非参数法中最重要的方法之一。

其主要思想为:在给定的文本集中,选取与待分类/预测数据的最相似的k个训练数据,通过对这k个数据的结果或者分类标号取平均、取众数等方法得到待分类/预测数据的结果或者分类标号,最终判断出待分类文本所属的类别。

KNN算法在基于向量空间模型中,每个文本作为一个n维向量,通过计算新文本与训练文本之间的距离,通过不断的归类划分,最终得到k个分类,而文本的分类根据该文本所属的类别来决定。KNN算法并不像贝叶斯分类、支持向量机等方法会对训练集进行训练,KNN只是将训练集存起来,在分类/预测时需将待分类/预测数据与训练数据比较排序。

与其他文本分类算法相比,KNN算法具有计算简单、分类效果好的特点。

2.2文本过滤研究动态

在增强文本文本相关度,更好的拟合用户兴趣,不能仅停留在关键词语法和结构,需要利用概念层完善词语的真实含义,更贴合用户意图。武汉大学信息资源研究中的张玉峰教授提出的用户兴趣本体就是利用本体学习技术构建的基于本体用户的用户模型,深入挖掘用户兴趣概念与概念间分类与非分类的关系赋予兴趣度值。

在大连理工大学计算机科学系林鸿飞提出的基于混合模式的文本过滤模型中采用了协作过滤,用户的兴趣度测量反馈不仅作用与自己的模型模板,同时还影响其他相似用户,完成合作过滤过程,增大影响强度。根据这一特性,文章提出了权威性和一致性度量,权威性度量如是2-8所示。

3 问题与挑战

针对人民网的特点,个性化推荐系统的设计与应用具有如下难点与挑战:

(1) 用户关键词为多个时,存在单个关键词进行匹配的情况,若仅推荐一个关键词对应的多篇文章,易造成用户审美疲劳和倦怠;

(2) 计算文本相似度方式有多种,如欧式距离、余弦距离等,方法的选择决定了结果的精确性;

(3) 推荐系统的应用场景需要针对性使用,并不适用于所有场景,如何根据场景选择推荐系统使用与否是一项技术难点。

4 模型设计

4.1 个性化推荐系统

本文所设计的文本内容过滤模型为个性化推荐系统的重要中间过程,推荐系统结构如图4-1所示。

用户通过浏览器浏览网页,推荐系统从用户浏览及检索等行为中提取关键词,例如用户在人民网上浏览了多篇“十九大”相关的新闻报道,推荐系统通过用户行为分析模型提取出“十九大”、“政策”等关键词,这些关键词作为文本内容过滤模型的输入,新闻、广告及文章等数据库中的文本信息通过过滤算法进行特征提取、相似度匹配与过滤,最终生成推荐内容列表反馈给网页,用户看到的人民网上某些板块中的内容便成为了为用户私人定制的专属内容。

个性化推荐系统主要包括用户行为分析模型与文本内容过滤模型,本文着重介绍文本内容过滤模型中的关键技术。

(责编:温静、赵光霞)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部