王琼:从数据当中寻找有价值的洞察

2016年08月21日22:48  来源:人民网-传媒频道
 

武汉大学新闻与传播学院副教授王琼

人民网深圳8月21日电(记者 燕帅)由人民日报社与中共深圳市委、深圳市政府联合主办的2016媒体融合发展论坛技术分论坛在深圳举行。“数据新闻与可视化”高端对话召开,武汉大学新闻与传播学院副教授王琼发言。

以下是武汉大学新闻与传播学院副教授王琼发言全文:

其实“数据挖掘”和“数据分析”,这两个词对于刚刚开始做数据新闻的记者来说会觉得非常非常头疼,而且很多做记者的人,之前都是数学不太好,所以才选了文科,一说要分析数据,大家就天然会产生距离感和恐惧感。正好借着今天论坛机会,还有在线网友收看我们直播,有必要我们给他们去讲,让大家知道数据分析、数据挖掘包括数据可视化离我们并不遥远。

有几个概念,是大家容易误解的,有必要澄清一下:

一个是刚才陈院长提到的“大数据新闻”和“数据新闻”,很多时候我们提到数据新闻,大家会说你们做的是“大数据新闻”,好厉害。但其实因为我们做过很多统计,包括走访了海内外差不多30多家数据新闻机构,我们发现可以这样讲,全球范围内,能够独立完成大数据新闻的传统媒体几乎没有。我们都需要通过和科技公司的合作,来完成大数据的生产。这其实给我们提了一个醒,当我们把数据的来源和数据的掌控、筛选完全交给第三方的时候,需要我们有更多的责任感和更多的专业能力去判断数据本身的客观性和真实性。

同时这里面也有一个值得我们每个人思考和警醒的陷阱,技术霸权存在的可能性。所以大数据新闻仅仅只占数据新闻当中的1%左右。

二个是数据挖掘和数据分析,数据挖掘这个词,很容易让人产生误解,因为挖掘听起来好像就是这儿挖挖,那儿挖挖,从网上挖一点数据,从哪个报告里挖一点数据,好像这就是数据挖掘。其实刚才这些行为,它都是属于数据的搜集,就好像我今天做菜,我到菜场上买菜或者网上购菜,不管哪种途径都是我买菜采购生产原材料的过程,还是数据搜集。数据搜集回来之后,我要开始洗菜,这个是数据清洗的过程。等这些菜清洗好了,也切好了,我就开始炒菜了,怎么炒?其实就是我怎么样分析这些数据,怎么样最后把数据完成,做成数据新闻作品,就是我打算用它做什么菜。同样是牛肉,同样是一波数据,我可以用它来做西红柿牛腩,我可以用它来做牛腩西葫芦汤,就是看你打算从数据当中问什么问题,所以讲什么故事,直接决定你用什么方法,从什么角度分析数据。

最后说回来,什么是数据挖掘?数据挖掘是要使用包括数据分析在内的一些手段。从数据当中寻找有价值的洞察。譬如说数据挖掘有一个非常经典的故事,据说也是一个数据分析经理,他编出来的,便于大家理解。

在超市里面我们发现尿布和啤酒放在一起,而且他们销量都会提升,为什么?是因为我们通过数据挖掘得到一个规律:在美国很多买尿布的人都是爸爸,他们顺便买几罐啤酒。

数据挖掘和数据分析在我们做新闻当中大概起到什么作用?大概它的比例和刚才说大数据新闻和数据新闻差不多,绝大多数时候我们只是做数据分析,非常少的时候我们用到了数据挖掘。最后想给大家看两个案例,想通过这两个案例来说明数据挖掘在数据新闻当中可能会使用的两个场景。

第一个它有助于我们发现规律。这个案例是The Changing Face Of America,讲的是美国种族随着时间变化在全美发生的变化。过去报道通常有两种:一种是全国范围内种族多样性变化。USA Today这家公司从1960年用数据挖掘数据分析的算法,算到2060年全美种族多样性的变化,这个价值非常有价值,而且这个算法随着时间变化不断调整。其实算法就是一段公式,大家不要觉得算法是很神奇的东西,它可能就是一个公式。

我们再看这个案例,这个案例是英国BBC的一个案例,用来帮助人们发现个体和群体之间的关系。它大概调查了16万多英国人的生活状态,合作方是几家学术机构,包括英国的伦敦政经大学等等,是做得非常有意思的算法。就会发现,现在社会已经不像过去那样,只是上层、中层和劳工阶层,现在有更多阶层划分。它通过一些互动,需要你填你的经济状况、有没有房屋、你认识什么人、你的朋友是什么职业、你的业余生活,最后帮你算出来一个算法,最下面一行得出来一个结论。我算了一下,按照我在中国的薪资水平算出来,在他们系统当中我是属于劳工阶层,我觉得有点尴尬。但是我想,也许是他们的算法不大适合中国国情。这是跟大家分享的两个案例,谢谢!

(责编:刘雨霏(实习)、燕帅)

推荐阅读

傅园慧霸屏 "洪荒之力"打造新一代"网红"
  参加里约奥运女子100米仰泳半决赛的傅园慧因为率真的语言和自带的表情包走红网络。她接受采访时的金句连连、搞怪表情逗乐了大批网友,短短两天,不仅个人微博粉丝数量从几万飙升至260多万,各种二次元表情包、剪辑视频也纷纷上线……【详细】傅园慧霸屏 "洪荒之力"打造新一代"网红"   参加里约奥运女子100米仰泳半决赛的傅园慧因为率真的语言和自带的表情包走红网络。她接受采访时的金句连连、搞怪表情逗乐了大批网友,短短两天,不仅个人微博粉丝数量从几万飙升至260多万,各种二次元表情包、剪辑视频也纷纷上线……【详细】

2016上半年中国影市数据分析
  2016年上半年是中国电影最好的时代,票房一路高涨达到246亿,观影人次7.23亿;2016年上半年也是中国电影充满忧患的年代,二季度出现近5年来首个票房下跌,偷漏瞒报票房时有发生,幽灵场次引人关注,文艺片生存危机加重……【详细】2016上半年中国影市数据分析   2016年上半年是中国电影最好的时代,票房一路高涨达到246亿,观影人次7.23亿;2016年上半年也是中国电影充满忧患的年代,二季度出现近5年来首个票房下跌,偷漏瞒报票房时有发生,幽灵场次引人关注,文艺片生存危机加重……【详细】