基于关键词的文本内容过滤算法【2】
三、网页文本过滤关键技术的研究
由于中文和英文的区别,中文文本与英文文本的表示方法有所不同。英文文本中词与词 中间都由空格或标点符号隔开,因而词与词之间的界限很明显,可以很容易的获取关键词,而中文文本中词与词则无明显的界限,这就影响了关键词的获取和匹配, 因此,本文将对中文信息过滤过程中的关键技术进行重点讨论。
3.1 技术难点解析
当前计算机技术大气候下,由于客户业务增长和历史积累所导致的海量业务数据,网络用语、机构简称等新名词不断增加,对分词技术提出了新的挑战。结合人民网的实际情况,在对新闻等内容的分词当中主要存在以下几点难题:
3.1.1 交集型歧义
对字串汉字串AJB,如果满足AJ、JB同时为词(A、J、B分别为汉字串),那么字串AJB被称作交集型切分歧义。例如:“结婚的与尚未结婚的”,应该分成“结婚/的/和/尚未/结婚/的”,也可以分成“结婚/的/和尚/未/结婚/的”。
3.1.2 组合型歧义
如果汉字串AB满足A、B、AB同时为词,那么AB被称作组合型切分歧义。例如:“这扇门的把手”中的“把手”就是一个词,“把手抬起来”的“把手”就必须拆开;
3.1.3未登录词识别
社会化新闻中,每天都会新增一些网络用语,新闻中的人民机构名也很难被传统分词器所识别。如:“王瑜珲任长沙市委组织部副部长”,“湄公河联合执法动态”等,其中“王瑜珲”,“湄公河”这些词可能在我们现有的词库中不存在,很难被切分出来。
所以,我们提出的方案,必须要能较好解决以上问题,并兼顾人民网对于海量社会化新闻的处理以及风险舆情的监测。我们认为基于HMM改进模型算法可以较好的为人民网解决分词技术难题,并为风险评估系统提供优质服务。
3.2 社会新闻中的中文分词算法
社会化新闻一直是人民网关注的重点问题,分词技术也成为人民网风险评估系统中的重要组成部分。我们根据以往的研究积累,结合上述难点。针对人民网对于社会化海量新闻的分析需求,有针对性的在文中提出了几种分词算法。通过研究,我们认为基于隐马尔科夫模型(HMM)的改进模型在分词算法上更为出色,更适合为风险评估系统提供服务。
与此同时,结合人民网风险评估系统,我们认为具有预警意义的词应该是名词动词或者形容词。对于一些代词如:“我们”,助词“的”等可以进行过滤。所以我们的分词模块可以通过词性过滤,来进行关键词提取,使依据词的评估更精确。
不仅如此,风险评估系统中的词多数为新词,我们提供新词添加功能,以便使分词效果更加准确。具体方案将在第六部分论述。
在理论研究的同时,我们对本文提出的应用于海量新闻中的分词模型多重隐马尔科夫模型算法进行实现,并结合了词性过滤与添加新词的功能,使分词取得了较好的效果,从而使理论结合了实际,为人民网的分词技术的优化提供了可靠的方案。
3.3 中文分词算法设计
中文分词方法可粗略分为两大类:第1类是基于语言学知识的规则方法,如各种形态的最大匹配、最少切分方法等等;第2类是基于大规模语料库的机器学习方法,这是目前应用比较广泛、效果较好的解决方案。用到的统计模型有N元语言模型、信道-噪声模型、最大期望、隐马尔科夫模型等。由于人民网海量新闻种类繁多,而且每日新名词产生量巨大,所以我们认为机械分词配合统计模型方法进行设计,并在其中加入人工干预,用人工与智能相结合的方法,可以达到比较好的效果。这里2类各介绍一例:
3.3.1基于字符串匹配的算法
基于字符串匹配的分词方法又称为机械分词方法。它的分词策略简单的说就是将待切分字串与分词词典中的词进行匹配,如果能够在分词词典中找到该字串,则进行切分,否则不予切分。基于字符串匹配的分词方法主要有正向最大匹配算法(Forward MM, FMM)、逆向最大匹配算法(Backward MM, BMM)、双向最大匹配算法(Bi-directional MM)、最小匹配算法(Minimum Matching)。
下面把正向最大匹配法(FMM)作为机械分词法的代表,对其过程详细介绍,流程图如图4-1所示:
1.初始化待切分字串S1,及输出字串S2,S2为空;
2.找出分词词典中最长的词条,并设该词条所含汉字个数为I;
3.取被处理文本当前字符串S1中的I个字作为匹配字段,查找分词词典。若词典中有这样的一个I字词,则匹配成功,将匹配成功的词W赋给S2并在该匹配字段后加一个切分标志,然后继续处理接下来的句子;
4.如果分词词典中查找不到这样的一个I字词,则匹配失败;
5.上步中的匹配字段去掉最后一个汉字,I--;
6.重复步骤3-5,直到能够在词典中进行匹配,并将匹配的字串成功切分;
7.分子切分结束,输出S2。
正向最大匹配法的优点就是易于实现而且分词速度也比较快,但是对交叉歧义和组合歧义没有特别好的解决办法,因为它只是根据词典进行机械的切分。经统计,在词典完备,没有任何其他知识的条件下,错误切分率1/169,但是有个完备的词典是不可能实现的,该方法往往不单独使用,而是与其它方法配合使用。
我们可以建立一个特殊规则表来改进机械分词的性能,例如:“会诊”后面接“断”、“疗”、“脉”、“治”时要把“会”要单独切出,这样可以对分词歧义有一定意义上的修正。还可以维护一张不单独成词的字表:如民,伟,尘等。但是维护特殊规则的表的方法会花费大量的人力资源,而起需要不断更新规则,更可能会出现规则的冲突。
3.3.2 基于HMM模型的分词算法改进策略:
结合人民网需求,本文以HMM算法为基础,参考中科院ictclas分词算法,提出一种基于多重隐马尔科夫模型的改进方法,将汉语分词、切分排歧、未登录词识别、噪声词过滤等任务融合到一个系统模型中。
多重隐马尔科夫模型实际上是若干个层次的简单HMM的组合;每一层隐马尔可夫模型都采用N-Best策略,将产生的最好的N个结果送到词图中供更高层次的模型使用
流程如图3-2所示:
图3-2 多重隐马尔科夫分词算法流程图
首先,采取N-best方法,快速地N个最好的粗切分结果;接着,在此结果集上,又采用隐马尔科夫算法识别出普通无嵌套的人名、地名,以及存在嵌套的专业词汇。然后将计算出来的结果概率加入下一步骤当中,此时,未登录词与普通词一起参与竞争,进而完成词性标注。
最小粒度切分主要任务是将原始字符串切分为不可分序列。不可分序列包括单个汉字,标点以及由单字节、字符、数字等组成的非汉字串。如“2016.9人民网蓬勃发展”应切分为:2016.9\人\民\网\蓬\勃\发\展。
在分词歧义问题上我们采取两个策略,一个是N-最短路径的切分排歧策略,另一个是通过粗分类再优先匹配专业词库策略。前者的基本思想是在保留切分概率P( W)最大的N个结果,作为分词结果的候选集合。实际上,N-最短路径方法的效果是介于最少切分方法和全切分之间的。
在未登录词识别问题上,我们参考对初始切分得到的各个词按照其在未登录词识别中的作用进行分类,并将词所起的不同作用称为角色。如图4-4中所示。
复杂地名和机构名往往嵌套了普通无嵌套的人名、地名等未登录词,如“张自忠路”、“周恩来和邓颖超纪念馆”。对于这种嵌套的未登录词,我们的做法是:在低层的HMM识别过程中,先识别出普通不嵌套的未登录词,然后在此基础上,通过相同的方法采取高层隐马模型,通过角色标注计算出最优的角色序列,在此基础上,进一步识别出嵌套的未登录词。
四、结语
综上所述,基于关键词的文本内容过滤算法必须建立在分词的基础上。在中文分词算法方面HMM模型的分词算法是比较出色的一个。在分词的基础上我们进行文本相似度的比对,筛选出不重复的文本内容。并且在基于用户模板给出的数据分析的基础上,进一步筛选出符合人民网用户心意的新闻内容。这样可以给用户提供更好的搜索体验。
我们实验室的项目,立足于市场和应用的基础研究,为北京市某政府单位提供了垂直搜索引擎服务,厦门移动的数据挖掘系统也是我们合作的一个方向。所以我们在分词,数据挖掘这两方面都有技术积累,我们期待进一步的合作。
分享让更多人看到
推荐阅读
相关新闻
- 评论
- 关注