人民網>>傳媒>>傳媒專題>>傳媒期刊秀:《新聞愛好者》>>2014年第7期

大數據下網絡視頻類用戶行為分析

呂佳寧 魏芳

2014年07月23日14:38    來源:新聞愛好者    手機看新聞

【摘要】我們生活的時代是信息爆炸的時代,伴隨信息數量的井噴式增長,一個最新的概念——“大數據”也隨之興起,並逐漸開始影響包括傳媒產業在內的各行各業的經營理念和操作方式。大數據在網絡視頻領域的應用和對用戶行為的分析,已經展現出其日漸改變視聽產業的理念、業態、調查方式和經營管理方式,大數據已成為人們感知社會、改變社會的一個重要方式和工具。

【關鍵詞】大數據﹔網絡視頻﹔用戶行為

半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創造出了“大數據”這個概念。如今,這個概念幾乎應用到了所有人類智力與發展的領域中。

一、大數據的基本特征

21世紀是數據信息大發展的時代,移動互聯、社交網絡、電子商務等極大地拓展了互聯網的邊界和應用范圍,各種數據正在迅速膨脹並變大。互聯網(社交、搜索、電商)、移動互聯網(微博、微信)、物聯網、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)等行業都在瘋狂產生著數據。

數據的單位從小到大依次為Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,相鄰單位之間相差進率為1024。我們日常生活中接觸較多的是前5個,但大數據的單位卻幾乎是從TB才開始的。在2006年,個人用戶剛剛邁進TB時代,全球一共新產生了約180EB的數據,在2011年,這個數字達到了1.8ZB。根據著名市場研究機構IDC的預測,到2020年,整個世界的數據總量將會增長44倍,達到35.2ZB。想駕馭這些龐大的數據,我們必須了解大數據的基本特征。

一是體量大(Volume)。據統計,互聯網一天產生的全部內容可以制作1.68億張DVD,一天發出2940億封郵件以及200萬個帖子。這些數據都表明,互聯網時代,社交網絡、電子商務與移動通信把人類帶入了一個以“PB”為單位的新時代,PB化已經成為比較常態的情況。大數據中的“大”除了大量的意思外,還有全局的概念,所有的數據都聚集在這裡。

二是多樣化(Variety)。從形式上看,如今的數據類型早已不是單一的文本形式,海量數據有不同的格式,訂單、日志、音頻對人們的處理能力提出了更高的要求。從結構上看,數據分為結構化、半結構化、非結構化數據,其中非結構化數據正以很高的速率增長,佔總數據量的80%∼90%,比結構化數據增長快10到50倍,是傳統數據倉庫的10到50倍。

三是價值高(Value)。網絡每天都會產生大量的不相關信息,這些未經過處理的原始材料屬於價值密度低的數據,需要人們沙裡淘金。以視頻為例,一部1小時的視頻,在連續不間斷監控過程中,可能有用的數據僅僅隻有一兩秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”,是目前大數據洶涌背景下亟待解決的難題。

四是速度快(Velocity)。大數據的產生速度相當快,包括股票、資訊等各方面的信息隨時都在傳輸。由於數據化存在時效性,需要快速處理並得到結果,實時獲取需要的信息。比如說一些電商數據,今天的信息不經處理就不能產生有效的結果,這將會影響到今天捕獲很多商業決策,因此在海量的數據面前,處理數據的效率就是企業的生命。﹝1﹞

二、大數據與傳統數據的價值差異

大數據包括交易數據和交互數據集在內的所有數據集,具體由海量交易數據、海量交互數據和海量處理數據三種主要技術匯聚組成。

海量交易數據指企業內部的經營交易信息數據,主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態、歷史數據。通過這些數據,我們能了解過去發生了什麼。

海量交互數據來自Facebook、Twitter、LinkedIn及其他來源的社交媒體數據。它包括呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數據、通過管理文件傳輸Manage File Transfer協議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件等。這些數據可以告訴我們未來會發生什麼。

海量數據處理是一種應對復雜、海量數據的能力,大數據的涌現已經催生出了設計用於數據密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的Apache Hadoop,難題在於以具備成本效益的方式快速可靠地從Hadoop中存取數據。

有人說,大數據是對傳統數據的終結和替代。這種觀點並不被學者們普遍接受。但大數據的價值和處理方式的確與傳統數據有很大程度的不同。

在宗旨上,傳統數據處理遵循的是固化業務優於高效,高效優於發現業務。整體上講這是一種求穩策略。而大數據處理卻將傳統方法的順序整體顛倒過來,首先是發現業務,其次是高效,最后是固化業務。

在數據特點上,傳統數據面對的一般是企業內部數據,數據量一般不會超過10億量級。大數據處理的卻是多樣化的數據,從數據來源上有內部和外部,數據結構上有結構化和非結構化,數據量可處理xPB級。

在技術手段上,傳統數據處理方法使用商務智能的開源RDBMS,昂貴的分析挖掘工具,甚至是商用集群。大數據處理方法則更多的是使用開源技術,更注重數據本身,使用多種技術解決業務問題。

在場景上,傳統數據主要處理實時、事務性、在線業務,而大數據則會處理大量的批量數據和少量的在線實時型數據。總而言之,傳統數據是以業務為中心,大數據則是以數據為中心,數據為業務服務。

三、網絡視頻類用戶行為分析

(一)中國網絡視頻發展的現狀。中國互聯網絡信息中心(CNNIC)發布的《第33次中國互聯網絡發展狀況統計報告》顯示,截至2013年12月,中國網絡視頻用戶規模達4.28億,較上年底增加5637萬人,增長率為15.2%。網絡視頻使用率為69.3%,與上年底相比增長3.4個百分點,而且這一規模依舊呈現出持續穩定上升的態勢。在收看新電影、熱播劇方面,網絡視頻已經成為網民的首選。上述報告還顯示,在收看電視劇的渠道選擇偏好上,“基本通過網上收看的比例為28.7%,大部分通過網上看,偶爾在電視上看”的用戶佔25%,可以說網絡視頻已經分流了傳統電視劇播放超過50%的收看渠道。網絡視頻有著收看時間自由、播放時長不受限制、廣告插播次數少等特點,很好地避免了傳統電視媒體稍縱即逝、被動接受、插播廣告等先天性劣勢,迎合了用戶的需求。目前主流的網絡視頻媒體有十余家,包括優酷土豆、搜狐視頻、PPS網絡電視、迅雷看看、愛奇藝、樂視網、酷6等等。一些網站的用戶重合度較高,比如搜狐視頻與優酷(40%)、搜狐視頻與土豆(41.2%)﹝1﹞,用戶還未對特定的視頻網站持較高的忠誠度,網站之間的用戶流動性大。對於視頻網站來說,豐富網站資源、加快更新速度是提高用戶黏性的關鍵。

(二)中國網絡視頻用戶的收看方式。據調研,通過搜索引擎進入視頻網站仍然是當前用戶收看視頻的最主要方式。當想收看某個視頻時,35.1%的用戶首先通過搜索引擎找到視頻后收看,這類用戶還未對特定視頻網站形成忠誠度。有小部分用戶形成了直接登錄視頻網站的習慣,甚至通過下載安裝的視頻客戶端尋找視頻。

用戶主要通過PC電腦上網看視頻,使用比例高達96%,與此同時,使用移動設備(手機、平板)上網看視頻的比例也達到了49.4%。﹝1﹞隨著移動設備性能提高、視頻客戶端質量提升,移動網絡視頻也逐漸被人們所接受。

(三)中國網絡視頻用戶行為的監測形式。在互聯網領域不斷涌現的新業務中,網絡視頻業務無疑是最受人關注的業務,但同時也是網絡中帶寬需求最大的一個部分。對用戶的網絡行為進行監測是網絡視頻得以成功發展和推廣的關鍵,通過監測了解用戶的搜索、觀看與反饋行為,反映真實的視頻品質,准確地分析視頻業務中的亮點與問題,進而提升用戶體驗質量。

具體而言,這些監測行為包括手機App、微博、百度搜索等。手機App可產生用戶反饋,如搜狐視頻、愛奇藝都有自己的手機客戶端,通過客戶端即可獲得一部分忠實用戶的數據。此外,微博上用戶所發表的意見或形成的討論也是十分有價值的信息,許多人將微博作為自己首要的發聲場所。百度搜索是目前為止網絡上最為重要的數據來源,因為每天都有數以億計的網民在搜索欄中輸入無數詞條,這些詞條的價值是無法想象的,並且根據一些關鍵詞還會產生文章的推薦鏈接,通過這些都可以勾畫出用戶的網絡行為。

最為完整、時時刻刻都在記錄用戶行為的當數Cookie,人們稱Cookie“像網絡身份証一樣收集用戶數據”。它能夠讓網絡服務器把數據存儲到用戶的硬盤,之后再從硬盤中讀取數據。它與各瀏覽器結合,針對每一個電腦用戶產生一個獨特的識別碼,記錄用戶的ID、密碼、曝光頻次、視頻點擊次數、視頻點擊位、瀏覽過的網頁等等。用戶的每一次訪問都會記錄,數據量巨大,正因為如此,Cookie往往隻有數月的存活期。

行為數據的獲取整體上有兩個途徑,即插碼在線採集和線下數據導入。通過在頁面上嵌入JS代碼,採集用戶在線行為數據,這些行為包括搜索、點擊、下載、收藏、評論、分享、邀請、標注、上傳、評分,甚至包括頁面停留時間、滾動、懸停、回退等細微行為。線下數據導入是指定期更新傳輸協議,離線爬取內容數據,獲取用戶信息與資訊內容。

(四)中國網絡視頻用戶的行為評估指標。獲取數據的意義在於對數據進行評估,以指導今后的戰略調整與制定,這些評估指標包括以下幾項:曝光量,即視頻展示了多少次﹔曝光人數,即有多少人看了視頻﹔點擊數,即視頻點擊次數﹔點擊人數,即視頻點擊人數﹔點擊率,即每100次曝光產生多少次點擊﹔UV點擊率,即每100個看視頻的人有多少人點擊了該視頻。更為重要的四個指標是眼球系數、網絡千人成本、互動數與蹦失率。

眼球系數指每個點位吸引瀏覽者眼球的能力指數,由紅外眼動儀測量吸引時間、吸引時長等計算得出。網絡千人成本指某一視頻在網絡上每曝光1000名目標受眾所花成本。互動數是指參與互動如訪問內容頁、上傳下載、評論、分享、游戲等活動網站互動的人數。蹦失率是訪問頁面人中沒有作任何點擊就離開頁面的人佔總人數的比率為多少。

(五)中國網絡視頻用戶的人群特征。由IP庫或者手機定位技術可分析節目源受眾人群的地理分布,結合網站行為數據還可了解不同地區觀眾對節目的滿意程度。按照用戶對網絡視頻的依賴程度由低到高,用戶可以分為初級用戶、中級用戶、高度依賴用戶和最深度用戶。初級用戶相對保守,很少移動上網,在信息接收上以被動為主。最深度用戶則經常接觸App類媒體,頻繁移動上網,網絡社交行為頻繁,依賴生活化和本地化的移動服務。

(六)視頻網站的訪問路徑分析與用戶追蹤。通過記錄不同來源的訪客瀏覽時的訪問順序,掌握活動網站的關鍵路徑和結構上的漏洞,之后針對結構的不合理之處進行優化提高。同時利用用戶的Cookie記錄的瀏覽者不同行為,可以將人群進行分類,並在未來通過分類標志找到他們,以達到被視頻影響過的人群不管到哪裡都可以找回來的目標。通過重定向對貼上標簽的人群進行精准追蹤,可以獲得很好的效果。

(七)網絡視頻用戶行為分析的數據挖掘技術。

1.網絡數據流挖掘。如何對視頻用戶產生的網絡數據進行分析,並從中得到有效信息是當下業界研究的熱點。當然對網絡數據進行分析的前提是網絡數據流的挖掘。

網絡數據流挖掘指的是通過互聯網爬虫實時了解網絡信息,包括互聯網上有哪些突發主題,主題的來源、傳播與分布,主題的影響力等等。這種技術的挑戰之一在於時間對信息的影響,在准確性上,多個流上發生在同時間段的不同主題可能被混淆為一個,也可能找到多個時間分布不同但語義相同的重復主題。正因為可能會找到重復主題,在主題數目一定的情況下,勢必會丟失某些其他重要主題。挑戰之二在於針對突發或新興事件的資源不足,在突發事件上,人們總是選擇基於歷史數據進行分析挖掘,但這樣往往效果不好,不僅成本高,而且在時效上也難以滿足需求,如何更有效地借助不同但相關的資源是需要考慮的一大問題。

2.短文本挖掘。短文本是一種早已廣泛存在並且得到越來越多關注的一種信息形式,鍵入搜索引擎的詞條、聊天室對話、新聞標題、狀態信息等都是短文本的存在地。通過短文本分析將信息分類為“垃圾信息”和“非垃圾信息”,並識別出用戶屬於哪個用戶群類別,針對不同的類別還可以進行廣告精准投放。短文本挖掘的主要挑戰是信息稀疏,給分析帶來一定的挑戰。

3.可視數據挖掘。如今數據的表達方式越來越多,各種媒體數據混雜出現。在挖掘分析數據時,往往對圖像進行關鍵詞標注處理,根據圖像的底層特征,自動找出能夠有效描述其語義內容的文本標簽。而對文本則進行圖像化的描述,根據文本的內容,自動找出能夠有效描述其內容的圖像。這種方法的宗旨在於盡可能等價地將圖像與文本互相轉化,便於統一索引、存儲、管理和檢索,可以有效提高數據挖掘結果的可信度、可理解性和可用性。

綜上所述,大數據技術已經和視聽媒介產業密不可分,並且將日漸改變中國視聽產業的理念、業態、調查方式和經營管理方式。當然,大數據縱然可以改變一切,但不能代替一切,更不可能任何事情、任何場合、任何時候都能用得上大數據。因此,在認識和運用大數據的時候,視聽產業或企業也必須充分認識到其局限性,用長棄短,切忌跟風炒作,更不要迷信神化。

(呂佳寧為北京大學視聽傳播研究中心助理研究員﹔魏芳為中國移動研究院教授級高工)

參考文獻:

﹝1﹞圖解大數據:特點有“4V”大量多樣高速價值[EB/OL].新華網,[2014-02-25].http://news.xinhuanet.com/info/2014-02/25/c_133141357.htm.

分享到:
(責編:董慧(實習生)、宋心蕊)




注冊/登錄
發言請遵守新聞跟帖服務協議   

使用其他賬號登錄: 新浪微博帳號登錄 QQ帳號登錄 人人帳號登錄 百度帳號登錄 豆瓣帳號登錄 天涯帳號登錄 淘寶帳號登錄 MSN帳號登錄 同步:分享到人民微博  

社區登錄
用戶名: 立即注冊
密  碼: 找回密碼
  
  • 最新評論
  • 熱門評論
查看全部留言

24小時排行 | 新聞頻道留言熱帖