一、大數據的本質
首先,大數據顯然不是能存放於電腦、手機、硬盤裡的數據,它數據量巨大,已經不是以我們所熟知的G和T為單位來衡量,而是以P(1000個T),E(一百萬個T)或Z(10億個T)為計量單位,它需要更大的存儲方式,比如雲存儲和其他大的存儲層來安放。
其次,大數據顯然不是一堆數據的堆集,而是數據與數據之間存在著某種關聯,發現並利用這種關聯可以產生價值﹔正如《大數據時代》一書的作者舍恩伯格所強調的,最重要的是人們可以很大程度上從對因果關系的追求中解脫出來,轉而將注意力放在相關關系的發現和使用上。隻要發現兩個數據之間存在相關性,就可能創造巨大的經濟或社會效益,
第三,大數據是一種社會狀態,其牽涉面很廣,在物理、生物、金融、環境生態、軍事,通訊、自動控制等各個領域都有相關應用。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或承載方式。隨著互聯網,特別是近年來移動互聯網的繁榮,大數據在這個領域的作用越來越凸顯,原因有三:其一,網絡行為數據激增﹔其二,網絡內容從單一的文字走向多媒體,使數據總量不斷增長﹔其三,多屏多終端模式增加了用戶對網絡的使用次數與時長,大量數據因此增長且沉集。各行各業數據都呈現出一種指數倍爆發增長狀態,大數據成為這個社會最為顯著的標簽。
第四,大數據是一種基於開放性的數據互通互聯,以及在其基礎之上的價值發現。信息孤島、數據阻隔,都不利於大數據多用途的價值發現。
二、大數據應用的三個層面
大數據應用以“數據回報”為導向,通過對數據的收集、管理、分析、應用,最終獲得經濟收入、口碑回報與事業良性發展等價值效用。
1.數據收集
大數據運用的關鍵在於誰擁有數據。《紙牌屋》之所以能夠通過大數據的精准制作而取得成功,前提是其投資方Netflix自身雄厚的數據資源。它擁有2700萬名美國訂閱用戶、3300萬名全球訂閱用戶,掌握這些用戶的年齡、性別、居住地、使用服務終端、用戶每天/每周的觀看時間等數據。這使得它可以輕鬆利用大數據建模,對用戶評分、觀看記錄、用戶好友推薦等信息進行深度挖掘,甚至可以通過收集觀眾按下暫停或快進的數據,從而找出用戶喜歡的視頻風格、內容風格、導演和演員等等,這些關鍵數據是造就其成功的第一步。
對於傳統媒體而言,獲得數據的渠道可以是自己的網站、在其他平台上的APP、機頂盒等,博客、微博、微信中的內容,情緒符號、各類投票、鏈接、圖像、視頻、評論、文本文件、加關注、粉絲等信息及關系圖譜中都隱藏著有價數據。隻要在縱向上有一定的時間積累,在橫向上有較豐富的記錄細節,通過多個源頭對同一個對象進行各類數據採集並且有機整合,就可能產生大價值。
2.數據管理
大數據的關鍵並不止於數據量的大小,而在於對數據的分析與應用能力。數據應用的前提是對數據進行高效管理。
數據分類 目前數據類型主要有:1.交易數據﹔2.行為數據(興趣數據等)﹔3.關系數據﹔4.位置數據﹔5.用戶生產的內容UGC(包手信息、評論)等,將這些數據分門別類地收集,並在其中學會傾聽用戶需求,理解用戶行為,從中發掘細分市場的機會,以此應對“技術+用戶+品牌”的媒體新時代。
打通數據 隨著新技術不斷發展,多屏觀看、跨屏互動已成為趨勢,但現實卻是各部門間組織結構的割裂情形,使得數據呈現離散與孤立狀態。在數據分析時,對同一用戶在不同終端的使用數據並沒有串聯起來整體分析,因此分析的結果必然與現實有很大的偏差。因此打通數據,讓數據自由流動,發揮多重效能,是數據管理很重要的方面。以騰訊視頻為例,他們利用雲端收藏和雲端播放,加上多平台可使用統一的ID號碼,使得用戶的收看行為成為一種不被打斷的連續狀態,用戶無論採取手機、TV、Pad、PC登錄,都可以通過雲端收藏延續前面的收看行為。在方便用戶的同時,這對於數據收集而言也是一個連續性的獲得。此外,騰訊視頻還給其媒資庫的各類視頻都打上“內容標簽”及“用戶行為標簽”,並根據智能算法推薦最匹配的內容給最對的用戶。
開放數據 大數據之所以能產生價值,在於數據的關聯性,通過對關聯數據的分析,挖掘其中蘊含的潛在價值。孤立的數據很難產生這樣的效能,因此“開放數據”是數據管理的一種先進理念。任何一個機構都不可能自己進行所有的分析和運用,開放是利已也是利他。比如Facebook和Twitter就帶頭開放部分數據給第三方公司,他們的開放不是無償的,希望從開放中受益。