人民网
人民网>>传媒>>人民网奖学金>>邮电2016

基于关键词的文本内容过滤算法

伏宜民  张栋  毛晗
2017年01月12日16:55 | 来源:人民网研究院
小字号

一、研究题目现实意义

在互联网提供的海量、庞杂的信息中,很多负相关或者是极少相关的信息以不同的表现形式,从不同的方面对人群造成毒害或者干扰。因此,对网络访问进行必要的、有效的内容过滤是非常重要的。那么互联网的文本信息过滤技术就是在这种情况下诞生的。文本内容过滤是指从海量的web文本中识别出相关指数没有达到预期目标的非法文本,将其屏蔽。

本文在对信息过滤系统的体系结构和文本过滤的原型进行研究的基础上,给出了一个基于向量空间模型的文本过滤逻辑模型。中文文本的特征抽取和表示是中文文本过滤基础。获取中文文本的表示需经过分词、停用词处理、特征项抽取和特征项权重计算等过程,本文对这几个过程进行了详细的研究并提出了一种基于TF*IDF的特征权重计算方法。

这样人民网的用户在检索特定的新闻热点内容时,我们可以给出更为准确的,经过筛选的新闻内容。提高用户的阅读体验。

二、网络文本信息过滤模型

2.1 文本过滤的概念和任务

文本过滤首先要根据用户的需求建立初始的用户模板,利用新闻推荐的协同过滤算法,并通过对用户的浏览记录,来分析出相应的主题,那么我们认为这些主题就是读者关心的新闻热点,并且认为这就是读者的兴趣爱好。用户模板建立好之后判断流中的每一文本是否符合用户需求,并将符合用户需求的文本提交给用户,再由用户对过滤结果进行评判,根据评判结果自适应地修改用户模板,以更好地符合用户的需求。

2000年的第九次文本检索会议(TREC-9)给出的 文本过滤任务的定义为:给定一个主题描述(即用户需求),建立一个能从文本流中自动选 择最相关文本的过滤模板(Filtering Profile),随着文本流的逐渐进入,过滤系统自动的 接受或拒绝文本,并得到文本相关与否的反馈信息,根据反馈信息自适应的修正过滤模板。 TREC 提出了文本过滤项目包括的三个子任务 :分流(Routing)、批过滤(Batch Filtering)、自适应过滤(Adaptive Filtering)。

(1)分流子任务

分流子任务的定义为:用户需求固定,提供对应于该用户需求的训练文本集,从用户需求构造查询语句来查询测试文本集。

(2)批过滤子任务

批过滤子任务和分流子任务很类似,其定义为:用户需求固定,提供对应于该用户需求的训练文本集中的相关文本, 构造过滤系统, 对测试文本集中的每一文本作出接受或拒绝的决策。它和分流子任务的不同点在于分流任务要求按相似度从大到小的顺序检索出一批文本,而批过滤则要求将文本分成相关和不相关两类。

(3)自适应过滤子任务

它是TREC给出的最重要的、最接近真实环境的子任务,它要求仅仅从主题描述出发,不提供或只提供很少的训练文本,逐一判断输入文本流中的文本是否相关,对“接受”的文本,能得到用户的反馈信息,用以自适应的修正过滤模板, 而“拒绝”的文本是不提供反馈信息的。

2.2 基于VSM的中文文本过滤的逻辑模型

2.2.1 文本过滤中的向量空间模型

向量空间模型自上世纪 60 年代末由 Salton 等人提出并成功的应用于著名的 SMART(System for the Manipulation and Retrieval of Text)系统之后,该模型及其相关的技术已经被广泛的应用于文本处理领域(文本检索、文本分类、文本过滤)[51]。 在文本过滤 领域, VSM己成为最简便高效的文本表示模型之一, 应用于文本过滤领域的VSM的几个基本概念如下:

(1)文本D(Document)

泛指文本或文本中的一个片段(如文本中的标题、摘要、正文等)。

(2)特征项ti(Term)

指出现在文本中能够代表文本性质的基本语言单位(如字、词等), 也就是通常所指的关键字, 这样一个文本D就可以表示为D(t1, t2,…, tn), 其中n就代表了特征项的数量。

(3)特征项权重wi(Term Weight)

wi指特征项ti能够代表文本D能力的大小, 体现了特征项在文档中的重要程度。这样文档D就可以表示为一个以特征项t1,t2,…, tn为坐标系的n维空间中的一个向量D(wl,w2,…, wn),其中wl,w2,…, wn分别代表文档D的特征项t1,t2,…, tn的特征项权重。

(4)相似度(Similarity)

文本过滤中用户模板D1和流入文档D2之间的内容相关程度常常用它们之间的相似度Sim(D1,D2)来衡量。当用户模板P和文档D均以n维空间中的向量来表示时,可以借助二向量间的某种距离来表示相似度。相似度计算公式如(式2-1):

用户模板P和流入文档D两者的内积越大或者夹角余弦值越大说明流入文档与用户模板的相似度越高。计算相似度的度量值,同设定的阈值相比较,将相似度小于阈值的文本过滤掉,将相似度大于某一阈值的文本提供给用户。应用VSM进行文本过滤的优点在于它把文本内容简化为特征项及其权重的向量表示,把 文本过滤中用户模板和流入文档的匹配处理简化为用户模板向量和流入文本向量之间相似度的运算,用数学计算的方法来解决自然语言处理问题,易于理解和实际操作。因此,VSM在文本过滤中被广泛应用。

2.2.2 中文文本过滤的逻辑模型

与英文文本信息相比,中文文本信息在字、词、句、篇等方面都有自身的一些特点:中 文的汉字众多;中文的词定义模糊、词类含混,切分比较困难,而且经常出现一词多义的现 象;中文的句子句型较多,组合形式多样,分析比较困难;中文的篇章比较简洁,但文体众 多,很难进行语义分析。 针对中文文本的这些特点, 在进行中文文本过滤时, 应该在英文文本过滤的基础上增加 一些针对中文特性的特殊处理过程, 如中文文本分词、 停用词处理、 未登录词处理、 文本的概念标注等步骤。参考信息过滤的一般模型,结合中文文本处理的实际情况,设计的基于Web的中文文本过滤的逻辑模型如图2-1所示:

在2-1基于Web文本内容的信息过滤逻辑模型中,用户对获取Web文的档训练集,经过文本提、分词、关键字的提取、计算关键字权重等一系列过程,最后得到以关键字为基础的文本向量集合,这些向量的集合就代表用户模型。对于测试Web文档遵循同样的过程把Web文档表示成测试文本向量。 最后,测试文本向量和训练文本向量按匹配策略进行匹配,按照一定的阈值决定是否过滤。

2.3用户信息的需求模型

在文本过滤系统中,用户信息需求表示所做的工作是运用一定的信息获取方法来获得用 户长期的信息需求, 准确的给出用户信息需求的逻辑表示(用户模板)和物理表示, 并根据一 定的用户模板优化和更新策略来修改用户模板,以更好的满足用户需求,提高文本过滤效率。

2.3.1 获取用户信息需求的方式和方法

信息过滤系统需要通过一定的方式和方法获得用户的信息需求。常用获取用户信息需求的方式:用户直接输入关键字法、固定文档集评价法、基于示例文本的方法、用户行为跟踪法等。

1)用户直接输入关键字法由用户直接输入一些关键字,以表达用户的信息需求。

2)固定文档集评价法所谓固定文档集(FixedDocumentSet:FDS)是指从近似总体文档集中选择最有代表性的 固定子集,该子集能够充分反映某一领域中的各种用户的需求。给定一组评价等级,如0~ 5,让用户按照自己的兴趣对一些文档集进行评价,然后根据评价结果从这些文档集中挖掘用户的兴趣。

3)基于示例文本的方法基于示例文本的方法是基于向量空间模型的文本过滤常用的信息需求获取方法。它要求用户以示例文本的形式提出自己信息需求,过滤系统通过分析示例文本的词汇表达方式,抽取能够表达用户兴趣的特征项, 构成能够表达用户信息需求的基本特征项集,并在特征项集的基础上形成以文本特征向量表示的用户模板,这种方法能够更有效的表达用户潜在的信息需求。

4)用户行为跟踪法用户行为跟踪法是一种采用隐式的方式获取用户需求的方法。用户行为跟踪法主要通过跟踪用户的热链、记录用户经常访问的站点或浏览历史,分析记录用户的行为和选择倾向,隐性地获取对用户的需求描述,以确定用户的兴趣和偏好。在实际中,常采用智能 Agent技术来实现用户行为跟踪。

2.3.2 用户信息需求模板表示方法

用户需求模型的构建是文本信息过滤中一个基本的子任务。采用一定的方式和方法获取 用户信息需求后, 应该给出用户信息需求的表示。

用户信息需求的表示分为逻辑表示和物理 表示。 用户信息需求的逻辑表示是指用户信息需求的外部表示形式,称为用户模板(User Profile),简称为模板。

基于向量空间模型的文本过滤系统中,最常用的用户信息需求的逻辑表示方法为基于特征项的表示方法,即用一个n维向量空间中的特征项向量来表示用户模板。设t1,t2,…,tn为构成用户模板向量的n个特征项,w1,w2,…,wn为对应特征项的权值,则用户模板P可以表示为向量(<t1, w1>,<t2,w2>,…,< tn, wn>)。

用户模板的表示方法还有语义网络方法、产生式规则和分类目录等方法。前两种方法适 用于具有推理机制的智能过滤系统以及某些采用布尔模型的系统。层次目录的用户模板表示方法依赖于固定的原始分类,例如著名搜索引擎Google、 InfoseekBaidu、Yahoo等采用分类体系或者系统根据具体领域采用的分类标准以及USENET等网上新闻组的分类标准等。

用户信息需求的物理表示为存储结构,用于描述在用户信息需求在用户模型服务器中的数据结构。

在基于向量空间模型的文本过滤中,用户模板的物理表示方法常采用文本检索中使用的倒排索引结构,即用倒排索引来表示用户模板。

具体做法是对于某个特征项t,将含有t的所有模板形成一个倒排表(InvertedList), 从某个特征项到其所对应的倒排表的存储位置的映射通过建立Hash表来实现,称之为目录 (Directory)。 在倒排表中一般设两个域, 一是模板的编号, 二是在该模板中特征项的权重。

设由特征项t1, t2, t3,,…, tn为基本特征项构成的用户模板P1, P2, P3的向量表示 形式分别为:(只给出前三个特征项的权重)

P1=(<t1,0>,< t2,0.1>,< t3,0.15>,…,<tn,wn>)

P2=(<t1,0.2>,<t2,0.0>,< t3,0.4>,…,<tn,wn>)

P3=(<t1,0.3>,<t2,0.45>,<t3,0>,…,<tn,wn>)

则按照倒排索引的方法可以给出用户模板P1, P2, P3的存储表示如图2-2所示:

2.4 用户模板的优化和更新策略

用户模板的优化和更新策略是用户信息需求模型所要解决的一个重要问题。 在文本过滤中常采用相关反馈技术来进行用户模板的优化和更新,采用相关反馈技术进行用户模板的优化和更新被认为是改进文本过滤的行之有效的手段。系统依据用户的模板,将匹配成 功的文本传送给用户,用户根据自己的判断将文本划分为“相关”和“不相关”两类,然后反馈给系统;系统根据用户的反馈信息自动优化和更新当前的模板。这是一个迭代过程,不断地修改,直至达到用户满意的结果。采用相关反馈技术进行用户模板的优化和更新的过程。

具体来讲,对于采用概率模型的文本过滤系统,其相关反馈过程依据 Robertson和 Sparck-Jones公式:

其中wi是项ti的权重,N是过滤文本数,R是用户认定的相关文本数;ni是含有项ti 的文本数,ri是相关文本中含有项ti的文本数。

按照上式排列项计算权重,从用户认定的相关文本中选择出前n个权重最大的项加入用户模板。

对于采用向量空间模型的文本过滤系统,一般采用Rocchio反馈模型。它表明一个有效的用户模板能够按照迭代(式2-3)产生:

其中Pk+1是新的模板,Pk是旧模板,Rk是相关文本的向量表示,Nk是不相关文本的向量表示,n1是相关文本数,n2是不相关文本数,α与β为加权系统,表示正、负反馈的贡献率。

(责编:温静、赵光霞)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部