人民网>>传媒>>传媒专题>>传媒期刊秀——《视听界》>>2013年第4期

大数据对电视产业意味着什么?

陆地 靳戈

2013年12月13日13:50        手机看新闻

一、大数据带来的新思维

(一)从样本到大数据

以统计学为理论基础的抽样成为人们探索未知的主要方法,这实际上是以样本取代全局数据的思路,甚至认为样本就是研究对象的本来面目。长久的习惯使人们丧失了对大规模数据的追求,甚至对大规模数据产生了无所适从的恐惧。

“大数据”的思维强调回归知识探索的本源,通过大规模的数据而不是样本获得知识。大规模的数据蕴含着样本数据不具有的新特征。迈尔-舍恩伯格在《大数据时代》一书中举了个例子:一幅马的照片无论怎么变,那还是照片,但如果每分钟播放24张不同形态的马的照片,就诞生了电影。这个例子的启示在于,当我们改变事物的规模时,事物的状态有时也会发生变化。

(二)从因果关系到相关关系

与抽样方法相配套的是千百年来人们对因果关系的渴求。人们之所以渴望知道因与果,并不是为了附和历史,而是期望预测未来。于是,人们建立了各种各样的逻辑线条,把社会的发展与变化抽象为一个个公式,妄图把每一种情况都视为自变量,在因果关系和因变量的作用下预测未来。且不说这种思维合理与否,单说推理出这样一条条的逻辑路径就足以使众多先哲皓首穷经。

与2007年和2008年美国疾病预防控制中心的数据对比,谷歌对H1N1的预测与官方数据的相关度高达97%。[ ]最关键的是,谷歌的数据是即时的,带有前瞻性的。这些数据对于谷歌先进的云计算系统,只不过是几分钟的运算时间。获得这些数据的成本更是接近于零,它们原本就在硬盘里呆着,如果不被用来分析,它们任何价值都没有。谷歌的预测并不是建立在因果关系上的,而是建立在相关关系上的。相对于因果关系,相关关系的探索成本低、时间短,准确性却毫不逊色。

(三)从精确分析到数据挖掘

人们对抽样法的迷恋以及对因果关系的不懈探索,自然而然地产生了对精确分析的推崇。一直以来,研究者进行社会研究中使用抽样法时必须保证数据的准确性,在定量研究中,还专门设计了寻找数据异常值的方法,如库克距离。人们对“倒因为果”、“多因一果”等所谓因果联系对立面的恐惧,使精确分析成为研究者的“护身符”。在大数据时代,因果关系已经不那么重要,相关关系逐渐走上台前,研究相关关系的方法——数据挖掘,也应运而生。

数据挖掘(Data Mining),是通过分析大量数据来揭示有意义的新联系、趋势和模式的过程。[2]与一般的数据处理技术不同,数据挖掘针对的是零散的信息——非结构化信息,如网络言论、图片和视频。同时,数据挖掘也继承了传统定量研究方法的优势,可以通过某些值的测量还原社会人的行为。在继承传统的基础上实现了对非结构化信息的处理,数据挖掘是大数据时代的必备工具。

分享到:
(责编:赵光霞、宋心蕊)



社区登录
用户名: 立即注册
密  码: 找回密码
  
  • 最新评论
  • 热门评论
查看全部留言

24小时排行 | 新闻频道留言热帖