基於關鍵詞的文本內容過濾算法的研究與應用【2】
(2)朴素貝葉斯算法(NB):根據貝葉斯定理,根據測試集中各種情況在各個類別中的概率,再根據測試文本的特征值推測屬於一個類,將該文本向量歸到概率最大的分類中去。該觀點的基本前提是,文本的特征值是相互獨立的,在這個假設條件能夠以指數級程度降低分類的復雜性。
如果測試訓練數據能准確表現分類情況以及特征值的概率情況,假設特征選擇是准確而全面的,同時不考慮權重的影響,朴素貝葉斯算法在作為分類器時能達到最好的分類效果。一般,概率參數和密度函數是難以獲取的,因此該算法需要通過統計或者測試進行准備工作和分類器訓練。在應用中,該分類器常作為比較標准進行校准分類器。
(3)支持向量機分類算法:是一種基於二類分類模型的算法。支持向量機的學習策略為間隔最大化,可形式化為一個求解凸二次規劃的問題,也等價於正則化的合頁隨時函數的最小化問題。支持向量機學習方法包含構建由簡至繁的模型:線性可支持向量機、線性支持向量機及非線性支持向量機。
其基本思想是建立一個最優決策超平面,使該平面兩側距離最近的兩類樣本之間的距離最大,從而對分類問題提供了良好的泛化能力。對於一個多維的樣本集,系統隨機產生一個超平面並不斷移動,對樣本進行分類,並不斷進行訓練,直到所有點位於平面兩側。這一系列的變換是通過定義合適的內積函數(核函數)進行的,變換得到滿足條件的平面可能多個,SVM在保証分類精度的同時,尋找距離這些平面距離最大的平面,得到最優分類。SVM的基本思想如圖2-2所示。
圖2-2中,分類線H將存在的黑點和白點兩個類分開,白點和黑點中距離分類線H最近的點構成平行於H的線H1和H2所構成的距離為分類間隔,表示為2/(||w||)。當分類間隔值最大時存在的分類線成為最優分類線。
SVM適合小樣本集的分類,特別是文本分類,在非線性和高維模式識別中表現出許多優勢。但該算法的缺點是它僅能解決二分問題。
(4)基於KNN的文本分類算法:是模式識別非參數法中最重要的方法之一。
其主要思想為:在給定的文本集中,選取與待分類/預測數據的最相似的k個訓練數據,通過對這k個數據的結果或者分類標號取平均、取眾數等方法得到待分類/預測數據的結果或者分類標號,最終判斷出待分類文本所屬的類別。
KNN算法在基於向量空間模型中,每個文本作為一個n維向量,通過計算新文本與訓練文本之間的距離,通過不斷的歸類劃分,最終得到k個分類,而文本的分類根據該文本所屬的類別來決定。KNN算法並不像貝葉斯分類、支持向量機等方法會對訓練集進行訓練,KNN只是將訓練集存起來,在分類/預測時需將待分類/預測數據與訓練數據比較排序。
與其他文本分類算法相比,KNN算法具有計算簡單、分類效果好的特點。
2.2文本過濾研究動態
在增強文本文本相關度,更好的擬合用戶興趣,不能僅停留在關鍵詞語法和結構,需要利用概念層完善詞語的真實含義,更貼合用戶意圖。武漢大學信息資源研究中的張玉峰教授提出的用戶興趣本體就是利用本體學習技術構建的基於本體用戶的用戶模型,深入挖掘用戶興趣概念與概念間分類與非分類的關系賦予興趣度值。
在大連理工大學計算機科學系林鴻飛提出的基於混合模式的文本過濾模型中採用了協作過濾,用戶的興趣度測量反饋不僅作用與自己的模型模板,同時還影響其他相似用戶,完成合作過濾過程,增大影響強度。根據這一特性,文章提出了權威性和一致性度量,權威性度量如是2-8所示。
3 問題與挑戰
針對人民網的特點,個性化推薦系統的設計與應用具有如下難點與挑戰:
(1) 用戶關鍵詞為多個時,存在單個關鍵詞進行匹配的情況,若僅推薦一個關鍵詞對應的多篇文章,易造成用戶審美疲勞和倦怠﹔
(2) 計算文本相似度方式有多種,如歐式距離、余弦距離等,方法的選擇決定了結果的精確性﹔
(3) 推薦系統的應用場景需要針對性使用,並不適用於所有場景,如何根據場景選擇推薦系統使用與否是一項技術難點。
4 模型設計
4.1 個性化推薦系統
本文所設計的文本內容過濾模型為個性化推薦系統的重要中間過程,推薦系統結構如圖4-1所示。
用戶通過瀏覽器瀏覽網頁,推薦系統從用戶瀏覽及檢索等行為中提取關鍵詞,例如用戶在人民網上瀏覽了多篇“十九大”相關的新聞報道,推薦系統通過用戶行為分析模型提取出“十九大”、“政策”等關鍵詞,這些關鍵詞作為文本內容過濾模型的輸入,新聞、廣告及文章等數據庫中的文本信息通過過濾算法進行特征提取、相似度匹配與過濾,最終生成推薦內容列表反饋給網頁,用戶看到的人民網上某些板塊中的內容便成為了為用戶私人定制的專屬內容。
個性化推薦系統主要包括用戶行為分析模型與文本內容過濾模型,本文著重介紹文本內容過濾模型中的關鍵技術。
![]() | ![]() |
分享讓更多人看到
推薦閱讀
相關新聞
- 評論
- 關注


































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量