面對社交媒體大數據,先問幾個為什麼
來源:“研究事兒”微信公號
社交媒體的大數據以其無與倫比的“大”給人們帶來了很多錯覺,然而,“大”一定能夠代表全體嗎?“大”一定是更好的嗎?“大”一定比個體更有價值嗎?這些問題,值得我們每個人在面對社交媒體大數據時,認真思考。
現如今,社交媒體已經成了“大數據”的代言人,人們對社交媒體提供的海量數據格外重視。然而,社交媒體上的海量數據究竟能夠反映多少真實?數據內容的價值幾何?
著名互聯網企業家及學者Kalev Leetaru,近期以Twitter為例撰文指出,社交媒體的大數據可能並沒有想象中那麼“大”,有研究價值的部分其實是很有限的。
一、“大”能代表全體嗎?
首先,“大”不等於“整體”。大多時候人們提起大數據,隱含的前提是這個數據涵蓋全部數據信息。然而事實並非如此。理論上來說,我們所說的大數據,應該是總體數據。但事實是,除了部分數據原始擁有者也許真的可以拿到全部數據,對於絕大多數第三方而言,他們手中的大數據只是部分數據,那麼再“大”的數據,也是“局部”。“大”是相對的概念,“大”與“全部”不可同日而語。比如,以Twitter數據為基礎進行的研究,可能只是Twitter用戶的“局部”。
其次,“大”不等於“更好”。人們提起大數據,還有一個隱含前提是大的就是更好的,事實未必如此。我們舉一個數據調查的經典案例:1936年美國大選前,有兩家公司在進行預測,第一家是雜志《文摘周刊》,之前他們已經成功預測了5次總統大選結果。1936年,他們隨雜志寄出問卷,共收回250萬份問卷,相較於當時美國1億選民而言,250萬已是相當大的數量。他們經過統計分析,發現候選人藍頓比他的對手羅斯福高了14%。另外一家調查公司隻調查了5000人,用的是隨機抽樣方法,預測是羅斯福當選。最后羅斯福以壓倒性的票數勝過藍頓。
盡管250萬是一個更“大”的數據,但是他們的樣本池是雜志訂閱人,在那個大蕭條的年代,能夠訂閱雜志的顯然是比較有錢的人,而中低收入者和失業者才是羅斯福的堅強后盾。由此我們可以看出,相較於更“大”的數據而言,“數據的代表性”才能更有效地預測事件的結果。
二、“大”必定有價值嗎?
有關大數據的特點,較為認可的是“4V”,即海量(volume),快速(velocity),龐雜(variety)和價值(value)。大數據的神話之一,是過分夸大其無與倫比的“大”所帶來的價值,然而,“大”就一定有價值的嗎?
對於大數據迷思,批判的聲音從未止息。人們在海量的信息中沉溺,但深究這些信息,Kalev Leetaru的研究認為,Twitter與傳統媒體相比更偏向於用戶的行為數據,信息內容也較為龐雜,而新聞媒體提供的信息出處更明確,穩定性更高,歷史邏輯更加清晰。顯然,與傳統媒體提供的數據相比,大數據時代社交媒體的信息“價值密度較低”。傳統媒體所提供的數據信息,其價值被嚴重低估。
大數據興起以后,社交媒體的數據往往都掌握在商業經營者手中,隻有這些媒體公司才能真的接近數據。而大部分商業經營者對於大數據的使用,往往是商業意義上的預測工具,是為了更好地吸引廣告商對社交媒體進行投入,以獲取更多利益,很多時候運用社交媒體大數據進行的研究,往往都是比較表淺的描述。《大數據:改變我們生活、工作和思想》一書中,作者邁爾恩伯格和庫基爾》提出:“大數據時代最大的轉變就是放棄對因果關系的渴求,取而代之的是關注社會的各類關系。即隻要知道‘是什麼’,而不需要知道‘為什麼’。這就顛覆了千百年來人類的思維習慣,對人類的認知與世界交流的方式提出了全新的挑戰。”
清華大學新聞與傳播學院教授劉建明認為,如果大數據技術使人類隻知道是什麼,就不再有探索客觀規律的要求——尋求“為什麼”,那麼大數據隻能讓人停留在事物的表面,最終使人類走向無知,以致消弭科學研究,最終導致社會的倒退。
三、“大”比個體更有價值嗎?
在很多運用社交媒體數據進行的研究中,研究者往往找出網上的人們在特定時間、特定事件中的發生行為,以進行預測。但是網上賬號和本人之間是否可以完全對應?賬號與人之間的聯結究竟如何發生?是否存在斷裂?
我們都知道,即便一個人在現實生活中規規矩矩,也不能保証他在網上不是“暴民”。如何通過一個人的網絡行為來預測他在現實中所採取的行動和對策,這中間的過程還需要很多研究。
不少迷信大數據的人,往往忽視了社會科學與自然科學之間的差異。一些人認為社會科學與自然科學一樣,都有一個固定不變的本質,因此可以通過量化研究來確定社會事件之間的因果聯系。然而,社會科學又的確不同於自然科學,因為社會現象存在很多偶然性,事件與事件之間並不必然存在強有力的決定性關系,尤其是人的行為,更是精微而多變,這也正是社會科學的魅力所在。因此,我們是否可以簡單地把網上賬號和一個人劃上等號,大數據提供的人格畫像對於研究人類行為的適用性到底有多少價值?這些問題仍需要我們深入思考。
因此,當我們面對大數據,尤其是通過大數據得出的各種結論的時候,不妨在心裡打上幾個問號:這個數據從何而來,能夠代表誰,得出的結論又是為了什麼?也許隻有這樣,我們才不會迷失在社交媒體的信息汪洋中,才不會因為“大數據”的結論,而錯失觀察生活得出結論的可能性,畢竟再大的網絡數據也不是社會本身。
分享讓更多人看到
推薦閱讀
相關新聞
- 評論
- 關注