算法型信息分發:技術原理、機制創新與未來發展
來源:《新聞愛好者》
【摘要】算法型信息分發給傳播領域帶來巨大而深刻的革命性改變,必然是一種重塑傳播規則、改變人們認知的全新規則與機制的建構與改變。算法與傳媒業的深度融合,不斷形塑著傳媒業的實踐,給信息採集、制作、分發等流程帶來了全新機制與規則,同時也給傳播倫理造成了相當大的影響。作為一種越來越主流的信息分發形式,其未來發展必須著力於解決現實發展中所存在的問題與隱憂,才能開辟其登堂入室的光明前景。
【關鍵詞】算法型信息分發﹔場景適配﹔人機交互﹔規制創新
一、問題的提出:算法型信息分發的強勢崛起與社會質疑
人類的信息分發模式迄今為止大體上經歷了三個主要的發展類型:(1)倚重人工編輯的媒體型分發﹔(2)依托社交鏈傳播的關系型分發﹔(3)基於智能算法對於信息和人匹配的算法型分發。
這三種類型作為信息分發的主流模式依次出現,各有其特色與擅長。譬如,媒體型倚重人工進行信息的專業化處理和加工,這種分發模式可以解決社會的共性需要,把那些對於全局、對於所有人具有普遍意義的信息篩選出來,並以點對面的方式傳播出去。它的價值在於解決了“頭部信息”的社會化分發。但是它無暇顧及人的分眾化、個性化及偶然性、體驗性及高場景度的信息需求。於是便出現了依托社交鏈傳播的關系型分發模式:你的朋友、你關注的人幫你推薦、過濾信息,他們的評論、轉發形成了一種信息篩選機制。社交分發模式最大的價值是在人類的傳播史上第一次激活了大眾傳播時代那些被忽略的極大量的“長尾信息”,形成了對於信息服務的“利基市場”,實現了信息分發的“千人千面”——不同的人通過不同的“朋友圈”有了個性化的信息世界。2010年Facebook主頁訪問量超過Google,可以看作是社交驅動的“關系型分發”在全球成為主流的“拐點”,所謂“無社交不傳播”即是對關系型分發的一種不無夸張的描述。
但“關系型分發”的問題在於無法解決用戶社交關系爆炸情況之下的內容生產源的爆炸所帶來的“信息超載”以及基於社交關系的推薦質量不斷降低的問題。經驗表明,在微信朋友圈中養生、微商、晒娃晒吃類的無效信息越來越多﹔微博上則是大V和營銷類賬號佔據了主體流量——有研究表明,在微博平台上,90%以上的內容是由3%左右的“大V”生產和分發的。在此背景下,算法型信息分發模式便應運而生,漸成潮流:現在人們隨便打開一個網站或資訊APP,都會有《個性推薦》或《猜你喜歡》之類的欄目,系統會根據你的瀏覽記錄和閱讀愛好,自動為你推薦內容。第三方監測機構易觀發布了一個具有標志性意義的數據:早在2016年,在資訊信息分發市場上,算法推送的內容已經超過50%。它意味著,我們現在接觸到的信息,主要是由“智能算法”為我們搜索和推送的。“算法型”信息分發之所以“流行”,有分析者認為是因為算法對流量的分配獨立於社交關系,不被“大號”壟斷﹔算法能夠處理的信息量幾乎沒有上限,能夠更好地激活、適配“汝之毒藥,我之甘飴”的長尾信息﹔算法能夠對用戶的社交推薦機制進行二次過濾,優化推薦結果。概言之,算法型實現了對於海量信息價值的重新評估和有效適配。“汝之毒藥,我之甘飴”意味著你覺得不感興趣甚至是垃圾的信息,對於我可能極有價值。於是,信息價值不再有統一的標准,不再有重要性的絕對的高低之分。對剛生下寶寶的媽媽來說,PM值絕對比英國脫歐更重要。對旅游者來說,當地的天氣信息絕對比當地的房價更重要。在算法的驅動下,每個人都有了自己的頭條,這一點得以實現。整個信息世界大一統的秩序被打破。
但也正因為如此,算法型分發模式站在了風口浪尖上。《人民日報》曾連續三天撰文從內容生產、信息分發和社會創新等角度對某算法型信息分發平台進行了全方位立體式的批判。公允地說,這些批判在現實狀況下不無道理。比如,在現在的算法還不足夠“聰明”的情況下,用機器智能去完全替代人的“把關”,這樣的資訊“守門人”是否可以完全信賴?再比如,由於算法型信息分發更多地建立在對於人們的直接興趣和“無意注意”的信息需求的挖掘上,它的直接后果是:對於人們必需的那些非直接興趣和需要“有意注意”所關注的信息的忽略所導致的“信息繭房”問題,等等。這些社會質疑對於算法型信息分發是不能不面對與正視的。
更進一步說,信息的社會性分發歷來被視為是一種政治權力,一直以來這個權力都是牢牢地掌握在政治和商業巨頭手中的。現在,在技術驅動和現實需求拉動的雙引擎下,基於大數據與人工智能的推薦算法系統的引入,對傳媒領域來講,實質上是一種傳統的寡頭權力逐步讓位於技術邏輯主導的用戶權力的過程,這一技術邏輯與分發范式不斷形塑著傳媒業的實踐,也給信息的採集、制作、分發等流程帶來了全新的指導理念,同時也對信息的社會傳播效果及傳播規范與倫理造成了深刻的影響。這是一個我們不能不認真、嚴肅對待的重大課題。
二、算法型信息分發的技術原理:主流推薦算法的類型及系統架構
隨著信息技術和互聯網尤其是移動互聯網的發展,人們迅速從信息匱乏的時代跨入了信息過載和泛濫的時代。在這個信息海量的時代,無論是信息消費者還是信息生產者都遇到很大的挑戰:對於用戶而言,從大量信息中找到自己感興趣的信息是一件非常困難的事情﹔而對於信息生產者而言,讓自己的信息脫穎而出,受到廣大用戶的關注,也是一件非常困難的事情。推薦系統就是解決這一矛盾的重要工具。推薦系統的任務就是聯系用戶和信息,一方面幫助用戶發現對自己有價值的信息,另一方面讓信息能夠展現在對它感興趣的用戶面前,從而實現信息消費和信息生產者的雙贏﹝1﹞。換言之,推薦的精髓在於,我想要的你都有,你給我的都是我想要的。
目前,推薦系統有三大主要類型:
(一)協同過濾推薦(collaborative filtering recommendation)
它包含兩種主要的推薦技術——基於記憶的(Memory-based)協同過濾和基於模型的(Model-based)協同過濾。前者假設如果兩個用戶過去對產品有相似的喜好,那麼他們現在對產品仍有相似的喜好,后者則假設如果某個用戶過去喜歡某種產品,那麼該用戶現在仍喜歡與此產品相似的產品。﹝2﹞因此,前者利用用戶歷史數據在整個用戶數據庫中尋找相似的推薦項目進行推薦,后者通過用戶歷史數據構造預測模型,再通過模型進行預測並推薦。﹝3﹞基於記憶的協同過濾可以有效挖掘用戶的潛在需求,個性化程度高,在眾多互聯網平台得以應用,比如亞馬遜、Netflix、Hulu、YouTube的推薦算法的基礎都是該算法。﹝4﹞研究數據表明,亞馬遜35%的銷售額與推薦系統有關。﹝5﹞但是基於記憶的協同過濾推薦依賴系統內整個用戶歷史數據庫作為其推薦系統的原料,當數據嚴重稀缺時,會存在冷啟動(這裡所謂的冷啟動是指對於某APP的新用戶,算法系統缺少其歷史數據,難以通過算法准確了解和把握其需求的狀況)差、推薦精准度下降等問題。而基於模型的推薦可以有效地解決這一問題,該算法根據訓練集數據學習得出一個復雜的模型,來預測用戶感興趣的信息。﹝6﹞基於模型的推薦雖然提升了預測的准確度,但也存在建模復雜和冷啟動差的缺陷。﹝7﹞
(二)基於內容的推薦(content-based recommendation)
基於內容的推薦即根據用戶歷史項目進行文本信息特征抽取、過濾,生成模型,向用戶推薦與歷史項目內容相似的信息。它的優點之一就是解決了協同過濾中數據稀疏和冷啟動的問題。﹝8﹞但如果長期隻根據用戶歷史數據推薦信息,會造成過度個性化和信息繭房的現象。另外,該算法更擅長文字信息特征的提取與分析,而在音頻、視頻等非結構化數據的分析能力上存在缺陷,因此它多用於網頁、文字新聞等文本類信息的推薦。
(三)關聯規則推薦
關聯規則推薦即基於用戶歷史數據挖掘用戶數據背后的相關關聯,以分析用戶的潛在需求,向用戶推薦其可能感興趣的信息。基於該算法的信息推薦流程主要分為兩個步驟:(1)根據當前用戶閱讀過的感興趣的內容,通過規則推導出用戶還沒有閱讀過的可能感興趣的內容。(2)根據規則的支持度(或重要程度),對這些內容排序並展現給用戶。﹝9﹞關聯規則推薦的推薦效果依賴規則的數量和質量,但隨著規則數量的增多,系統也會越來越難以管理。﹝10﹞
隨著移動互聯網的興起以及包含內容和關系的社交媒體(如Twitter、Facebook)的快速發展,某種單獨的推薦算法已難以滿足用戶推薦、內容分類、話題挖掘等需要,因此,融合多種算法、關聯更大數據的組合推薦系統得到發展與完善。在推薦系統的實踐應用中,經常運用兩種或幾種推薦算法,以整合優點,彌補缺點,實現精准預測和推薦(見表1)。
三、算法型信息分發的本質:用戶價值主導下的場景化適配
媒介的進化是一個技術與社會相互作用的結果。技術的崛起是目的性和工具性的復合體,它會引發社會制度、社會結構與功能的改變,以構建容納新技術的情境,從而導致人類社會結構、交往方式、認知途徑的改變。作為一種“闖入”信息傳播實踐的新生產力量,算法型信息推薦(分發)技術實現了信息生產與傳播范式的智能化轉向,同時帶來了用戶價值主導下的場景化適配。其發展與變化是一種重塑傳播規則、改變人們認知的全新制度設計,它的影響主要體現在以下四個維度上:
(一)邏輯維度:構建全局性的視角
在數理統計中,一個點的分布沒有規律可循,兩個點可以確定線性函數的規律,三個點可以勾勒二次函數的輪廓,無數的點就可以描摹出任何函數的圖像,呈現點與點的關聯和變化趨勢。與此類似,基於算法的內容生產將不再依賴記者、編輯等單獨點的信息採集,而是通過對大數據庫的實時分析,構建起跨語言、深層次、全局性的認識事物、表征和預測現實的模型,突破了以往人們“腦海真實”的片面性和局部性,從而仿真出無限逼近於客觀真實的“符號真實”。
算法型信息分發的核心算法模型是在不斷“學習”中逐漸成長、成熟,變得智能的。一套良好的推薦算法系統需要三種基本物料:算法、算據、算力。算法是不斷完善的系統化符號邏輯,最初被開發出來的時候,仿佛嬰幼兒時期人的大腦,隻有“遺傳基因”存在。要想使他越來越聰明,需要通過一系列社交行為比如游戲、對話、接受學校教育等來讓他不斷與外界發生互動,互動的過程其實就是符號化外界事物的過程。算法系統同樣也是如此,需要不斷地與數據進行“互動”,通過算據的反復訓練,達到智能化的效果,數據量越大,數據驅動方法的優勢就越明顯,系統模型運行效果的精准度也會越高。這就需要算力的有力支持,隨著雲計算技術的成熟以及計算機硬件系統的不斷更新,算力也不存在制約了。
由此可見,在大數據時代,隨著算法推薦系統的不斷成長,基於算法模型的內容生產可以超越個體經驗積累的片面性和局部性,從大數據中挖掘以事件為中心的多維關聯網絡,對社會問題、社會現象等實現從局域到全域的剖析。這種剖析是跨越時空、突破語言限制的解析,給我們呈現出一種全局視角。
(二)主體維度:場景式傳播帶來受眾主體地位的彰顯
隨著算法與內容產業的深度融合,場景傳播成為可能,信息傳播模式也實現了從一對多的大眾傳播模式到一對一的個性化傳播的轉變,受眾地位得以凸顯,用戶思維成為算法推薦中的關鍵性要素。算法推薦以用戶價值為中心,在用戶閱讀內容和交互的過程中,運用算法分析用戶特征、閱讀偏好以及閱讀場景,構建用戶畫像,從而為用戶提供場景適配的信息服務。
以今日頭條為例,其算法推薦系統主要有三個維度的變量:內容維度、用戶維度以及場景維度。該系統的核心邏輯就是實現內容、用戶與場景的匹配,以滿足用戶的個性化信息需求。﹝11﹞由此可見,受眾已經由新聞信息的被動接受者變成了媒介產品的積極使用者,傳播邏輯由“傳者本位”轉向“受眾本位”。基於算法的場景傳播可以在更深層次上對用戶需求進行洞察、分析與推薦,以實現對用戶需求的全方位把握。同時,算法擴大了場景傳播的范圍。大眾傳播時代,受眾接受新聞信息主要在公共性與半公共性場景之中﹔移動互聯網時代,算法可以在移動場景和私密性場景中為用戶提供分眾化、個性化的信息服務,用戶的需求從總體上得到了更大程度的“擴容”與滿足,用戶在傳播領域的主體性地位得到了根本性的提升。
(三)內容維度:人機交互重新定義賽博空間中的自我
隨著大數據時代的到來,人們獲取信息、建立認知越來越依賴於數據及數據模型。同時,碎片化的表達正在逐漸改變著受眾的閱讀和思維習慣,經典的敘事結構被受眾所遺棄,具體表現為傳統媒體所生產的新聞內容到達率不斷下降,新媒體語境下的、符合受眾閱讀思維的諸如蜂巢形敘事結構①、菱形敘事結構②成為新媒體語境下適應市場、適合受眾的新常態敘事結構。它們改變了長期以來“我說你聽”“以傳者為中心”的單向傳播模式,帶來了讀者參與度高、互動性好的新的內容消費體驗。
以新聞為例,新聞本身便是一種典型的敘事,是一種基於客觀事實對5W基本要素進行重構的文本。網絡社會的到來使人與機器之間的界限逐漸模糊。依托移動互聯網技術,人們可以在任何時間、不同場景進行網絡連接,借助各種新媒體終端及時、快捷地發布信息、獲取信息。與此同時,網絡空間中的敘事主體也由專業化的媒體從業者轉向普通公眾。網絡空間大量的帶著豐富生動的情感因素、源自生活的數據素材組成的感性敘事更切合受眾的閱讀品位、貼近受眾的情感體驗。受眾進行內容生產、消費的過程就是一個參與和互動的過程。通過這個自由創作與互動反思的過程,受眾建構起由符號表征所延伸的自我,沉浸在現實場景和虛擬場景之間不斷轉換。真實的傳統疆界逐漸坍塌,虛擬也不斷內爆成為生命體驗的現實部分。
(四)功能維度:表征與預測事件的最優策略
算法型信息分發不僅是一種讓社會性操作無限接近客觀真實的符號表征形式,更是一種說明和預測經驗背后知識的新方法和新范式。
人類社會的發展史就是一部認識客觀世界的歷史。從遠古時期的宗教神學,到軸心時代開辟的哲學,再到歐洲中世紀后期開創的自然科學。人類認識世界的方式經過了神學階段、形而上學階段之后,現在已經進入了科學階段或實証階段﹝12﹞。作為社會科學中的一個學科,新聞傳播學的發展也在經歷類似的變遷:從早期的文學、政治學等發軔,到20世紀40年代社會學、社會心理學等理論的引入實現獨立,再到互聯網所開啟的數字化,學科研究逐漸由經驗判斷轉向實証測量。數據化生存的時代已經到來,它將開啟以數據信息為基礎、以算法為核心、以“相關關系”為關聯的表征物質世界真實復雜關系的研究方法論。
建立在個人經驗積累基礎上的主觀認識具有一定的局限性,會受到社會性因素(比如語言、抽象符號、智慧個人互動能力)的影響。推薦算法主導下的新聞傳播實踐則可避免這些干擾,通過構建多層次、跨領域的表征現實模型,呈現客觀世界超越人類認知能力的深層次聯系。這種表征形式借助無損的數字介質進行全息表達,並可以傳遞給具有同構性的事物,解決了社會科學表征社會現實的效度問題,克服了新聞學中由權力主導下的新聞客觀性的問題,也建構了人類認識客觀世界、改造客觀世界的全新系統,這個系統的一大特性就在於預測。比如,對於流感傳播規模、強度與路徑的預測,對於社交媒體上未來某一時段熱點話題的預測,對於收視率、電影票房以及股市大盤的預測,等等。
四、算法型信息分發的未來發展:解決現實發展中的問題與隱憂
作為一種越來越主流的信息分發形式,其未來發展必須著力於解決現實發展中所存在的問題與隱憂,才能開辟其登堂入室的光明前景。那麼,這些問題和隱憂是什麼呢?從技術邏輯與社會邏輯相結合的角度看,它們集中在以下三個方面:
(一)更隱蔽的歧視
“數字系統以清晰的方式,和它們根植於其中的文化緊密地融合在一起”。[13]托馬斯•克倫普在其著作《數字人類學》中直截了當地指出,人類建構的數字系統就是人的鏡像系統。不可否認,人類社會充滿著各種各樣的歧視,世俗社會的民族、宗教歧視,商業社會的金錢歧視,政治社會的權力歧視等,在利益交織的社會中不斷變種。
作為同構現實的表征機制,算法新聞的設計是人主導的,不可避免地會受到價值干涉,盡管許多公司極力回避這個問題。以客觀、公正的科學名義設計出的算法難免會有“變種”的歧視,而這個歧視也將變得更加隱蔽。
(二)“信息繭房”效應:算法推薦在滿足用戶個性化需求的同時,也存在著“信息繭房”的局限
“信息繭房”是凱斯•桑斯坦在《信息烏托邦》一書中提出的概念,一般來講,用戶的閱讀興趣不可能涵蓋所有的知識領域,長期隻接觸自己感興趣的信息,而缺乏對其他領域的接觸與認識,會限制用戶對社會的全面認知,將用戶禁錮在有限的領域內。不可否認的是,“信息繭房”是兩種傳播思維相互碰撞的結果,傳統意義上大而全的傳播模式注重“面”上的拓展,而基於算法的個性化信息推薦則注重“點”上的深挖。因此,算法推薦在滿足用戶的特定需求時,不可避免地會限制用戶信息的接觸面。但在未來隨著算法不斷優化與迭代,“信息繭房”的問題會得到弱化或解決。比如今日頭條通過不斷優化算法模型,在向用戶推薦感興趣信息的同時,也逐漸向其推薦具有較強關聯領域的信息,以弱化“信息繭房”效應,在更為宏大的參照結構中擴大用戶的認知范圍。
(三)倫理沖突:低俗內容與虛假新聞
低俗內容和標題黨現象也是算法推薦存在的顯著性問題,算法推薦最初在傳播倫理方面存在一定的缺陷。不同於人工編輯和人工篩選,隻要用戶感興趣,基於技術理性的算法就容易將低俗內容和標題黨新聞推薦給用戶。在未來,傳播者在算法規則設計中不僅要考慮到傳媒的商業價值,還應考慮到傳媒的文化引領等社會價值。為減少標題黨新聞的推薦,一些算法型內容分發的互聯網企業已經做出了一些探索,如今日頭條建立了檢測“標題黨”的規則模型,以警示頭條號作者的“標題黨”行為。當頭條號作者預發布文章的時候,如果標題中出現了“驚呆”“震驚”等內容,會收到一個飄黃的窗口,提示其內容涉及標題夸張,建議修改,如果作者繼續強行發布的話將會被限制推薦量。﹝14﹞
目前,多家科技公司也存在推薦假新聞的問題。Facebook和谷歌公司為了限制假新聞的傳播,一方面依靠用戶對假新聞打標簽的方式,對具有一定數量假新聞標簽的新聞進行降序處理﹔另一方面則運用算法對交叉新聞源進行分析,以辨別新聞的真實性,但實事求是地講,通過算法識別和制約假新聞依舊在路上艱難前行。當然,在移動互聯網時代,面對海量信息,傳統媒體也頻頻爆出報道假新聞的消息,由此可見,治理假新聞現象不僅僅是算法推薦需要解決的問題,也是整個內容產業需要面對的問題。
注釋:
①Paul Bradshaw於2007年提出,針對突發社會新聞報道,由於信源眾多,事件未知性大以及時效性的要求,新聞報道不能完全展示5W要素,隻能針對單個要素進行主次報道。這種新聞報道方式類似蜜蜂筑巢時的積聚行為,如2014年3月國內媒體針對馬航MH370失蹤事件的報道。
②Devin Harner於2011年提出,為適應新聞傳播時效性的要求,增強與受眾的有效互動,新媒體語境下新聞敘事呈現菱形發展模式,即隨著事件的進展和社會關注度的提升,新聞報道展示的新聞要素逐漸增多,隨著事件的解決和受眾注意力的轉移,后期報道呈現減弱的趨勢,如2016年5月針對“雷洋”事件的報道。
參考文獻:
﹝1﹞http://www.woshipm.com/pd/818285.html.
﹝2﹞鄧曉懿,金淳,韓慶平,樋口良之.基於情境聚類和用戶評級的協同過濾推薦模型﹝J﹞.系統工程理論與實踐,2013,33(11):2945-2953.
﹝3﹞John S.Breese,David Heckerman,Carl Kadie.Empirical Analysis of Predictive Algorithms for Collaborative Filtering﹝C﹞.Process of the 14th Conference on Uncertainty in Artificial Intelligence,1998:43-52.
﹝4﹞項亮.推薦系統實踐﹝M﹞.北京:人民郵電出版社,2012:51.
﹝5﹞洪亮,任秋圜,梁樹賢.國內電子商務網站推薦系統信息服務質量比較研究:以淘寶、京東、亞馬遜為例﹝J﹞.圖書情報工作,2016(23).
﹝6﹞冷亞軍,陸青,梁昌勇.協同過濾推薦技術綜述﹝J﹞.模式識別與人工智能,2014(8):720-734.
﹝7﹞陳潔敏,湯庸,李建國,蔡奕彬.個性化推薦算法研究﹝J﹞.華南師范大學學報(自然科學版),2014(5).
﹝8﹞呂學強,王騰,李雪偉,董志安.基於內容和興趣漂移模型的電影推薦算法研究﹝J﹞.計算機應用研究,2018(3).
﹝9﹞曾春,邢春曉,周立柱.個性化服務技術綜述﹝J﹞.軟件學報,2002(10).
﹝10﹞李杰,徐勇,王雲峰,朱昭賢.面向個性化推薦的強關聯規則挖掘﹝J﹞.系統工程理論與實踐,2009,29(8).
[11]人民網.今日頭條公開算法原理本質[EB/OL].http://it.people.com.cn/n1/2018/0112/c196085-29762253.html.
﹝12﹞Auguste Comte.Cours de Philosophie Positive,Tome Premier. London George Bell & Sons.1896.p.2.
﹝13﹞托馬斯•克倫普.數字人類學﹝M﹞.鄭元者,譯.北京:中央編譯出版社,2007:2.
﹝14﹞劉志毅.今日頭條如何用算法打擊“標題黨”﹝J﹞.傳媒,2017(4).
(喻國明為教育部長江學者特聘教授,北京師范大學新聞傳播學院執行院長,中國人民大學新聞與社會發展研究中心主任﹔韓婷為北京師范大學新聞傳播學院碩士生)
分享讓更多人看到
推薦閱讀
相關新聞
- 評論
- 關注