面对社交媒体大数据,先问几个为什么
来源:“研究事儿”微信公号
社交媒体的大数据以其无与伦比的“大”给人们带来了很多错觉,然而,“大”一定能够代表全体吗?“大”一定是更好的吗?“大”一定比个体更有价值吗?这些问题,值得我们每个人在面对社交媒体大数据时,认真思考。
现如今,社交媒体已经成了“大数据”的代言人,人们对社交媒体提供的海量数据格外重视。然而,社交媒体上的海量数据究竟能够反映多少真实?数据内容的价值几何?
著名互联网企业家及学者Kalev Leetaru,近期以Twitter为例撰文指出,社交媒体的大数据可能并没有想象中那么“大”,有研究价值的部分其实是很有限的。
一、“大”能代表全体吗?
首先,“大”不等于“整体”。大多时候人们提起大数据,隐含的前提是这个数据涵盖全部数据信息。然而事实并非如此。理论上来说,我们所说的大数据,应该是总体数据。但事实是,除了部分数据原始拥有者也许真的可以拿到全部数据,对于绝大多数第三方而言,他们手中的大数据只是部分数据,那么再“大”的数据,也是“局部”。“大”是相对的概念,“大”与“全部”不可同日而语。比如,以Twitter数据为基础进行的研究,可能只是Twitter用户的“局部”。
其次,“大”不等于“更好”。人们提起大数据,还有一个隐含前提是大的就是更好的,事实未必如此。我们举一个数据调查的经典案例:1936年美国大选前,有两家公司在进行预测,第一家是杂志《文摘周刊》,之前他们已经成功预测了5次总统大选结果。1936年,他们随杂志寄出问卷,共收回250万份问卷,相较于当时美国1亿选民而言,250万已是相当大的数量。他们经过统计分析,发现候选人蓝顿比他的对手罗斯福高了14%。另外一家调查公司只调查了5000人,用的是随机抽样方法,预测是罗斯福当选。最后罗斯福以压倒性的票数胜过蓝顿。
尽管250万是一个更“大”的数据,但是他们的样本池是杂志订阅人,在那个大萧条的年代,能够订阅杂志的显然是比较有钱的人,而中低收入者和失业者才是罗斯福的坚强后盾。由此我们可以看出,相较于更“大”的数据而言,“数据的代表性”才能更有效地预测事件的结果。
二、“大”必定有价值吗?
有关大数据的特点,较为认可的是“4V”,即海量(volume),快速(velocity),庞杂(variety)和价值(value)。大数据的神话之一,是过分夸大其无与伦比的“大”所带来的价值,然而,“大”就一定有价值的吗?
对于大数据迷思,批判的声音从未止息。人们在海量的信息中沉溺,但深究这些信息,Kalev Leetaru的研究认为,Twitter与传统媒体相比更偏向于用户的行为数据,信息内容也较为庞杂,而新闻媒体提供的信息出处更明确,稳定性更高,历史逻辑更加清晰。显然,与传统媒体提供的数据相比,大数据时代社交媒体的信息“价值密度较低”。传统媒体所提供的数据信息,其价值被严重低估。
大数据兴起以后,社交媒体的数据往往都掌握在商业经营者手中,只有这些媒体公司才能真的接近数据。而大部分商业经营者对于大数据的使用,往往是商业意义上的预测工具,是为了更好地吸引广告商对社交媒体进行投入,以获取更多利益,很多时候运用社交媒体大数据进行的研究,往往都是比较表浅的描述。《大数据:改变我们生活、工作和思想》一书中,作者迈尔恩伯格和库基尔》提出:“大数据时代最大的转变就是放弃对因果关系的渴求,取而代之的是关注社会的各类关系。即只要知道‘是什么’,而不需要知道‘为什么’。这就颠覆了千百年来人类的思维习惯,对人类的认知与世界交流的方式提出了全新的挑战。”
清华大学新闻与传播学院教授刘建明认为,如果大数据技术使人类只知道是什么,就不再有探索客观规律的要求——寻求“为什么”,那么大数据只能让人停留在事物的表面,最终使人类走向无知,以致消弭科学研究,最终导致社会的倒退。
三、“大”比个体更有价值吗?
在很多运用社交媒体数据进行的研究中,研究者往往找出网上的人们在特定时间、特定事件中的发生行为,以进行预测。但是网上账号和本人之间是否可以完全对应?账号与人之间的联结究竟如何发生?是否存在断裂?
我们都知道,即便一个人在现实生活中规规矩矩,也不能保证他在网上不是“暴民”。如何通过一个人的网络行为来预测他在现实中所采取的行动和对策,这中间的过程还需要很多研究。
不少迷信大数据的人,往往忽视了社会科学与自然科学之间的差异。一些人认为社会科学与自然科学一样,都有一个固定不变的本质,因此可以通过量化研究来确定社会事件之间的因果联系。然而,社会科学又的确不同于自然科学,因为社会现象存在很多偶然性,事件与事件之间并不必然存在强有力的决定性关系,尤其是人的行为,更是精微而多变,这也正是社会科学的魅力所在。因此,我们是否可以简单地把网上账号和一个人划上等号,大数据提供的人格画像对于研究人类行为的适用性到底有多少价值?这些问题仍需要我们深入思考。
因此,当我们面对大数据,尤其是通过大数据得出的各种结论的时候,不妨在心里打上几个问号:这个数据从何而来,能够代表谁,得出的结论又是为了什么?也许只有这样,我们才不会迷失在社交媒体的信息汪洋中,才不会因为“大数据”的结论,而错失观察生活得出结论的可能性,毕竟再大的网络数据也不是社会本身。
分享让更多人看到
推荐阅读
相关新闻
- 评论
- 关注