【摘要】:大数据时代的研究逻辑,对传播学研究形成了新的冲击,传统的文本分析方 法,已经不能满足对样本数量的宏阔和数据挖掘深度上的双重要求。语料库的研究方法 在数据新闻、舆情监测和学术研究等领域都可以得到广泛的应用。通过语料库这种结构 化的文本数据来开展的量化研究,在国内外新闻传播学界都属新鲜待开发的领域。
【关键词】:大数据 语料库 文本数据 语义挖掘 定量研究
在新闻传播学视野之下,大数据的分析思维正在对我们的研究形成冲击,比如新闻业务将实现一些方向性调 整,趋势预测性新闻和数据驱动型深度报道分量增加。对 于舆情研究来说,问卷发放和小组访谈等传统的民意调查 方法,已经不能满足基于社交媒体平台的海量信息处理要 求。新闻传播学领域的研究面临一个共同问题,即文本分 析方法的创新。基于大数据的分析思维,文本也是一种有巨大潜在价值的数据。但是传统的文本分析手段拘泥于有 限的样本数量和定性研究的窠臼,无法满足大数据时代对 内容挖掘上广度和深度的要求。在这种情况下,来源于应 用语言学领域的语料库分析方法的介入,能够使结构化文 本数据库的构建成为可能。再结合语言学、修辞学领域的内容分析手段,能为我们从研究范式到研究方法、工具上都提供一些新思路。
一、大数据时代对新闻传播学研究范式提出的新课题
(一)新闻实践领域
随着社交媒体的应用和智能手机的普及,人人都可以是事件的目击者和发布者,传统媒体新闻报道在原创性和独家性方面的优势已不复存在。大众传媒作为社会 的记录者与传播者的传统定位及面向所有受众的粗放式 信息传播方式,已越来越不能满足受众对于精准信息和 定制内容的需求。
大数据时代,最重要的是数据的开放性,其被垄断的可能性很小,公共云、公共数据库到处存在。媒体既要生产自己的数据,更要会用、用好公共数据。这些公 共数据不仅包括数字信息,也包括大量文本内容。要使 用这些公共内容,就需要有对海量信息的整合能力以及 对潜在信息价值的挖掘能力,并需用可视化工具把结果 精准地呈现出来。
(二)舆情研究领域
在研究视角上,传统的舆情研究大都局限于比较表 层化的话语研究和事件研究,没有深入挖掘公众的思想、 行为和情感方面丰富的内涵和规律性信息。而且受传统的 调查、访谈方法自身的局限性影响,很难进行受众心理图谱、行为图谱和社会关系图谱这样复杂的语义关系的绘制和分析。
在研究时距上,目前的舆情研究以共时性研究为主, 历时性研究缺乏。但是,舆情热点的变化具有年轮效应,只有横向的共时性分析是不够充分的,没有对公众舆论的历时性演变和舆情发生机制的纵向研究,我们在认识和行 动上的方位感就会不够客观和真实。
在采集方法上,现有的舆情监测和分析软件的同质化程度较高,采集的文本大多是基于互联网社交媒体, 分析结果的呈现方式也比较相似。在炫目的可视化图景 背后,没有对文本数据的深度分析,而这种深度分析要 基于对大量文本的内容挖掘和整合,这就需要经过结构化处理的文本数据库来支持。舆情话语的表达乱象纷 繁,真伪并存,既需要小型的基础文本数据库来深度挖 掘某类热点专题,也需要大型合成文本数据库对舆论走向和趋势进行宏观把握。
(三)传播学学术研究领域
传统的传播学文本分析,主要以框架分析、符号分 析等定性分析方法为主,但这两种分析主要集中于意识形 态、修辞方式等方面,不够客观。而文本内容,特别是舆 论研究的文本内容,有零散化、碎片化的特征,在拉斯韦 尔的5W里面, say what(文本内容研究)的问题常常被 人忽略。虽然有一些专门的词频统计分析软件,可以完成 对高频词和低频词的统计分析,但在语义深度挖掘方面仍 然有待开发。我们需要找到一种常规的工具,可以把学术 文本进行结构化方法上的整合,通过把文本分类、合并, 提取常用关键词和核心词,按研究主题分门别类地进行储存,为对比研究、专题研究等领域提供更加严谨和结构化的文本数据库支持。
二、语料库分析:体现大数据思维的研究方法
语料库属于应用语言学的范畴,是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续 语言运用文本或话语片段而建成的、具有一定容量的大 型电子文本库。该方法在国外已有三十年以上的研究历 史,如今也拥有较为成熟的语料库构建与检索工具,比如 Wordsmith、AntConc等。国内语料库的研究亦开展近二十 年时间,研究范畴基本被划分为词汇、语法、语篇、语用 和文体研究等五个方面。利用语料库作为研究工具,可以 从微观层面对新闻传播学领域的文本内容进行研究。在语言学领域,语料库的研究方法已日趋成熟,只不过尚未走进新闻传播学的视野,这是因为新闻传播学在文本内容分析方面欠缺新的方法,需要语料库这类研究方法的介入。
三、语料库研究方法的应用领域
(一)在新闻实践领域的应用
1.史料检索语料库。即把新闻报道的原创内容和历史资料数据化,变成媒体的核心资产。在新闻传播渠道 日益扁平化的今天,建立一个受众易于发现和易于使用 的史料数据库,是报纸生存下去的核心竞争力之一。另 外还可以采集一些外部数据来作为语料库的扩充部分, 如通过合作、购买、交换、抓取等方式来获取来自其他 媒体的内容和来自互联网平台用户创造的内容,并完善 语料库的资料存储、检索查询和版权管理,为进一步转 化利用打好基础。
2.政府公开信息语料库。彭博社亚洲区新闻资讯主 编Lee Miller指出:数据驱动型报道中的数据都可以并且应 该从公开信息渠道中获得。所谓的信源和数据,并不一定 要像“维基解密”或斯诺登那样从秘密渠道获取,而是应 该从公开信息中挖掘。这些信源包括政府机构网站中日常 发布的政策信息和每年重大会议的政府工作报告;大众媒 体官方网站上的报道和专题;官方媒体的新媒体移动终端 发布的内容等等。根据政治、经济、教育、公共卫生等不 同主题,建立可供随时检索的公开信息语料库,能够为媒 体报道节约大量搜寻数据和素材的人力和物力。
3.“数据博客”语料库。在基于社交网络平台的节 点式传播基础上,来自草根阶层或者是专业领域人士的博 客、微博的内容和数据,也能成为新闻线索的来源和报道 内容的基础。因此,我们可以采集那些比较有影响力的博 客或微博的内容,通过初步的结构化处理,转换成随时可 供查询和检索的民间信息语料库,供数据驱动型的新闻报道作为参考,也可以作为普通读者查询的数据库。
(二)在舆情研究领域的应用
通过建立动态舆情监测语料库,提供可供检索的关 键词数据库,结合修辞学、语言学的分析方法,分析舆论 话语表达、公众社会关系、群体心理特征等。首先按照一 定的规则和专题对收集的舆情文本内容进行分类和标注, 然后是文本合并和关键词提取。在语料处理方面要注意两 点:一是小型基础语料库的支撑和建设,大数据库作为信息母体,需要若干小型数据库作为检索源;二是中心度和 关联度结构化的算法,大数据库作为一种非结构化的数 据,需要进行一些结构化的解读和梳理,这就需要相关的 数据结构化算法,这种算法可称之为数据模型。
1.舆情热词语料库。舆情热词语料库主要服务于舆 情监测,解决重大和突发事件中引爆点和关联度的关系。 我们可以通过关注热点内容,搜集热点事件的语料,建立 舆情热词数据库,找出引发舆情关注的引爆词。并结合语 词情感分析、修辞分析手段,来划分引爆词的中心度级别 和关联度级别,在此基础上设计热词发现模型,达到舆情 预警和预测的目的。
首先我们根据研究规模来选取一定数量的样本,然后 用语料库构建工具对选定文本进行标注和结构化处理, 对舆情关键词进行再次统计并生成核心主题词表数据 库,从中找出舆情引爆词。需要特别指出一点,核心主 题词不一定是词频最高的那个词,而是舆情敏感度,也 就是热度最高的词,即舆论的中心词。中心词是舆论的 引爆点,实现了引导公众把舆论由说变成做的过程,同 时也是关联度最高的词,从最大限度上关联其他的主题 词并形成语义网络。
关于舆情热词的分析,有两个关键点:引爆点和关联 点。由引爆点可以导出对引爆词的挖掘;由关联点可以导 出对连接词的发现;引爆词具有意见领袖的作用,迅速扩 大热词的影响力并号召公众付之行动;关联词具有搬运工 的作用,能够连接各种关系词,形成主题词网络。基于引 爆词的挖掘和连接词的发现,舆情热词分析可以划分出两 个维度:中心度分析和关联度分析,进而设定中心度指标 和关联度指标,并设计指标体系的计算公式,形成具有引 爆性质的热词理论模型。这样就可以舆情监测,随着热词 强度的提高,热词的范围是不是在扩大,社会的紧张度又 如何,进而往前预推,达到预警的目的。
2.意见领袖修辞特征词语料库。在一些官方传统媒 体失语或报道不及时的情况下,网民习惯于打开网络意见 领袖的博客或追逐微博上的只言片语,从他们那里寻找解 读、剖析和批判。意见领袖的观点、意见情绪能为受众所 接收,能引起受众的共鸣,会产生巨大的舆论影响,这与 他们个人的话语表达风格、对某个领域的专业知识和对某 类问题的把握能力密不可分。因此,通过对意见领袖的观 点、态度关键主题词等内容的提取,可以从中总结某个或 某类意见领袖的修辞特点及个人特征,形成一定的辨识度 依据;进而还可以从中寻找具有心理唤起度和社会动员能 力的词,为舆论引导提供来自民间舆论场的参照。
3.传播学学术主题词语料库。在传播学内容研究 领域,可以尝试用语料库来完成对常规5W领域的深化研 究,尤其是引向微观层面。越是细小的不易觉察的,越是 人们忽视的,也越是研究者值得进军的领域,而微观的研 究恰恰能够揭示很多深度的东西。所以传播学主题词语料 库可以做的,恰恰是把非结构化的文本数据结构化,根据 研究主题设定结构化的方向、结构化的坐标、结构化的指 标,来完成研究的目标。比如传播史方面的研究,我们可 以找到一个时间节点,搜集与这一节点同步的史实资料, 然后把文本进行整合、分词、标注,提取与这一历史节点 关联的年份词、学者名称、学术观点、专门术语,构建主 题词语料库,绘制这一时期的主题词学术地图。
4.受众特征关键词语料库。利用微博进行广告传 播,有着天然的精准投放优势。我们可以利用语料库来分 析挖掘受众群体特征,绘制不同目标群体的心理图谱、行 为图谱和社会图谱,从而实现对目标接触点的精准把握, 找到受众的需求交叉点。这种语料库分析的应用原理来自 于特征聚类,以此为依据,来向具有相似心理需求的受众 推送受本群体认可的资讯和产品广告,从而达到对品牌接 触点和受众需求交叉点的精准把握。
四、语料库分析在传播学研究方法论上的创新点
工具性的研究方法,要和研究内容的属性相匹配;要 把主观感觉的内容变成可靠结论,从而挖掘出研究对象的 潜在价值。语料库的分析方法,符合大数据的思维逻辑, 通过对海量文本数据的处理,可以对文本内容进行深入挖 掘,而不仅仅局限于表层研究或定性分析。以微观偏中观 的修辞手段和语义分析的研究为基础,通过语料库这种结 构化的文本数据来开展量化研究,这在国内外新闻传播学界都属新鲜待开发的领域。 语料库的研究,本质上也是一种跨学科的研究,综合了语言学、修辞学、计算机科学和统计学各学科的知识。 当前国内外大型语料库的建设都具有动态性的特点,即语 料会定期更新,基于它可以丰富传播学量化研究的方法, 发现关键词和主题词的历史性演变,从而寻找其中的年轮 效应,为学术文本和实践领域的研究提供纵向的和历时性 的参照物和坐标系。
本文系中国人民大学科学研究基金(中央高校基本科研业务费专项资助)“基于修辞传播学语料库的舆情热词研究”(项目编号:14XNH111)的研究成果之一。
(喻国明系中国人民大学新闻学院教授、副院长;李慧娟系中国人民大学新闻学院博士研究生)
参考文献
[1]彭兰.大数据时代,新闻业面临的新震荡[J].编辑之 友,2012(1).
[2]官建文,刘扬,刘振兴.大数据时代对传媒业意味着什 么[J].新闻战线,2012(2).
[3]李彪.大数据视域下社会舆情研究的新境界.编辑之 友,2013(6).
[4]人民网舆情办公室.如何应对网络舆情——网络舆情 分析师手册[M].北京:新华出版社,2011.