基于社会系统响应函数的在线群体分类研究
摘 要:该文致力于丰富在线群体的研究体系,为未来探索深层次科学问题提供支撑。讨论了在线群体与在线话题的定义及常见分类方式。重点展现了一种全新的依据观测社会系统响应函数的趋势将在线话题分为4类的定性研究方法,即外源性首要传播型话题、外源性次要传播型话题、内源性首要传播型话题和内源性次要传播型话题,并且进一步以此区分讨论不同类型话题的在线群体。同时,明确地提出了规范的使用步骤与实际操作时可能遇到的问题及解决方法。最后尝试运用该方法来估计以“新浪微博”与“百度贴吧”为代表的在线社交网络平台中各类话题群体的分布情况。
关键词:社交网络;在线群体;在线话题;定性分类;社会系统响应函数
Research on Online Group Classification Based on the Response Function of A Social System
Abstract: Devoted to enriching the research system of online group, and laying the foundation for exploring deep scientific problem in the future, this paper discusses the definition of online group, online topic, common classification methods, and primarily introduces a new qualitative method of online topic classification based on observing the trend of a social system response function. Through this method, online topic discussed by online group can be divided into exogenous critical topic, exogenous subcritical topic, endogenous critical topic and endogenous subcritical topic. The standardized steps to this method we clearly put forward is tried to use, and it is figured out that the problems may occur when applying it to the practice. What’s more, this method to estimate the distribution of four types of topics in the two representatives of online social network platform "Sina microblog" and "Baidu Tieba".
Key words:Social network; Online group; Online topic; Qualitative classification; The response function of a social system
1引言
互联网+时代,在线社交网络的出现改变了传统的信息交流方式,成为日常生活中获取、传播信息的主要平台。在多学科融合的背景下,在线社交网络已经逐渐成为学术研究的热点之一。
近年来,与在线社交网络中群体的相关研究中,出现了许多将其分类的标准,包括个体在网络空间与现实空间中的交集、需求、行为、目标、商业营利性、互动内容的主题、合法性、异质性、对公共事件传播关注的偏好、表达观点时的态度、生存周期、要素稳定性、互动频率、焦点/集中度、凝聚力和成员参与度等[1,2]。分类方式虽较广泛,但出于网络舆情监控视角,鲜见学者专注于以话题为基础的群体分类研究。而话题作为一种组织信息的方式,恰恰是形成群体的重要方式之一。用户发表的言论往往受到一段时期内直接相关的事件或活动影响,与特定主题紧密相关[3]。甚至不同的话题对于群体的影响力也不同[4]。可见话题的分类对于在线群体的研究领域来说十分必要。
纵观近年文献,不难发现在线话题研究大多属于计算机领域,适用于技术层面的研究成果不断涌现,如话题检测、跟踪、分析、存储、预警和应急处理技术[5-7]等。在涉及在线话题的分类研究中,学者们从不同的角度,结合实际场景需求提出了不同的分类方法。
从话题分类算法与技术的角度,学者们分别利用决策树、层次聚类、LDA、主成分分析法、朴素贝叶斯、支持向量机、K-NN 算法、Ricchi算法、BP算法等方法提出了多元的网络话题分类算法[8-10]。
从网络舆情预判的角度,有学者将话题作为网络舆情萌芽初级阶段的产物,将其分为事件型话题与观点型话题。其中事件型分为可预见的和不可预见的,可预见型指一定会发生的事件,如“春节放假”,不可预见的事件往往是一些突发事件,如“坠机”等。
面向新闻报道类话题,文献[11]根据新闻报道的特征将话题分为3类:重复性新闻话题、演化性新闻话题和评论性新闻话题。文献[12]提出面向新闻TDT系统的话题分类方法,认为话题和话题核心文档类别属性一致。
从话题热度评估的角度,文献[11]定义了热点话题,认为它不仅是被新闻网站报道和宣传力度大的话题,同时也是受互联网用户关注程度大的话题。文献[13]通过热度计算,将热点话题归为3类:周期性热点话题、临时性热点话题和长期性热点话题。文献[14]借助TF-IDF思想, 利用狄利克雷信息检索模型把话题分为长期话题和临时话题。
从社会语言学的角度,文献[15]基于汉语语法结构,估计出“微话题”中词语、短语、句子分布情况,并指出话题内容主要涉及政治、体育、行业、生活、教育及影视6大方面,其中社会生活类占80%、影视评论类占10%。文献[16]根据热门话题的多元内容,将其归纳为社会新闻、娱乐名人资讯、定时性话题及微博营销类话题。
综上,现有在线话题分类方法或过于表面、不成体系,或过于繁复、不易操作,缺乏易于识别和判断,并适用于在线群体的分类方法。为此,本文创新性地提出了一种有效的基于社会系统响应函数的在线话题分类方法。理论方面,引入系统动力学和新闻传播的思想,将在线话题从动力、传播两个维度,分为外源性首要传播型话题、外源性次要传播型话题、内源性首要传播型话题和内源性次要传播型话题4类,同时以此将在线群体进行细分,弥补了现有在线群体理论研究领域的空白。应用方面,本文提出的分类方法也适用于网络舆情分析。在线社交网络为舆论自由化提供了开放环境的同时,也带来了网络谣言、暴力的隐患,甚至部分舆论给国家稳定和社会安全带来严重的危害。因此,快速地判断社会系统响应趋势、及时地监控话题走向,有利于有效引导在线群体和积极解决潜在舆情危机,对维护社会稳定和促进国家发展具有重要的现实意义。
2术语界定
2.1在线话题(online topic)
在明确在线话题的概念之前,首先应该明确话题的含义和在线社交网络的范围。
话题,在TDT(Topic Detection and Tracking)话题发现与跟踪评测计划中,是最基本的概念。在研究初期,事件和话题被认为有相同的含义,随后话题被普遍解释为一个核心事件或活动以及与之直接相关的事件或活动。相同地,洪宇等人[17]也认为话题是指由一个种子事件出发的一连串直接相关的事件或活动。
在线社交网络(online social network),是由社会成员之间的相互交互所形成的相对稳定的社会结构,具有复杂的网络结构和信息动态传播机制[18]。根据功能与展现方式的不同,大致可分为3类。一是关系导向型网络,基本为现实社交圈子的映射,如人人网、微信、Fackbook等。二是内容导向型网络,用户基于共同兴趣,采用BBS论坛、博客等形式的互联网应用,通过长期交流、互动形成的社交聚合,如天涯社区、百度贴吧等。三是媒体分享型网络,用于发布、检索和共享媒体资源,如Flickr、土豆网等。目前,各类网站的功能日益丰富,使得上述类型划分日益模糊,如微博既包含关系导向型网络又含有内容导向型网络。本文将上述3种网络及其各种组合,统称为在线社交网络。
在现有研究中,几乎没有发现在线话题的明确定义。具有一定参考意义的是,曾有学者对互联网话题进行多层面界定。狭义视角,认为互联网话题形成于各大新闻门户网站,新闻媒体会不定时发布新闻报道,来阐述和跟踪现实社会中发生的事件;广义视角,认为互联网话题形成于互联网中各种各样的应用,例如新闻网站、BBS论坛、微博、博客、社区网站等。借鉴其定义方法,从广义层面,认为在线话题为:来源于各类在线社交网络平台,由一个种子事件、活动引发的与之直接相关的事件或活动。
2.2在线群体(online group)与网络群体(network group)
在线群体的定义是本研究的基础问题。通过查阅文献发现,关于研究对象学者们提出了不同的说法,如“在线群体”、“网络群体”、“网民”等。为避免模糊不清的用词干扰后续研究,将对其进行明确界定。
网络群体,存在于网络虚拟社会中,和现实生活中社会群体所处的空间虽不同,但也有许多相同之处。学者们分别从与现实社会群体的延伸和重组关系、存在的基础与环境、广义与狭义范围内的聚集动机、行为和过程等角度对其剖析。而在线群体,存在于在线社交网络中。与传统Web网络最大的不同在于人作为主体,掌握了主动权,自主创造内容信息,并自由选择希望接受的信息。文献[19]认为在线群体是基于互联网的大规模、自发形成的集体,其成员之间分享共同的兴趣、经验、信仰等。文献[20]则认为其是具有目标导向的,有明显群体边界的,并且能够社会化组织个体活动的系统。Matzat[21]曾定义在线群体为通过CMC(Computer Mediated Communication)工具,出于族群成员的共同利益,围绕至少一个话题进行单向的传播和双向的交流的一群人。
在定义中,本文重点强调了两者存在的基本条件的差异、存在目的和内部的交流互动。认为网络群体为个体在网络社会中因工作、兴趣、价值取向、信仰、特殊需要或其他目的,通过网络互动结合起来进行有目的的活动的集体;在线群体为个体在共同兴趣、关注、需要、利益等因素驱动下,基于在线社交网络,围绕至少一个话题不断交互而形成的网络群体。可以这样理解,后者是前者的一个子集,它的生存空间主要是在线社交网络—网络的子集中。为了直观,本文进一步将社会群体、网络群体与在线群体间的关系可视化,见图1。
3基于社会系统响应趋势的在线群体分类方法介绍
3.1理论基础
以文献[22]提出的在外源性(exogenous)与内源性(endogenous)冲击推动下的图书销量分布函数为基础,文献[23]认为信息爆发现象是由于消息等待时间呈无尺度分布和信息呈级联传播这两个因素导致,并建立了可分类度量社会系统响应的函数模型。在模型中作者不仅考虑了话题中事件的外源性因素和内源性因素,还根据话题在网络中的传播性,进一步将其细分为首要传播性(critical)和次要传播性(subcritical)。借助拥有500万视频资源的YouTube平台数据,通过对评论及时间的定量分析,得出个体在接触信息和产生响应之间的时间分布函数:
其中,?主要由信息源决定,信息源“质量”越高?越小。
收看(视频)的即时概率:
μ_i是在时间点t_i被i个看过视频的用户影响的潜在用户数,传播性越好的话题,群体内部μ_i越大。次要传播型话题中μ_i<1,而首要传播型μ_i接近于1,?(?)是除了系统外源影响之外的影响因素。作者得出结论:1)外源性和内源性是推动一个话题是否可以登上热门话题的榜单并迅速在在线粉丝中传播的因素;2)首要传播性或次要传播性,决定了参与讨论该话题的人是否易于将这个话题扩散影响至他人,引发他人未来关注。即一个话题的可传播型强,敏感性高,增强了讨论者间相互影响力,事件话题萎缩速度则减缓,此时体现出首要传播性,反之则体现出次要传播性;3)若一个人的社交网络很发达,那么更易受到给定的视频内容的影响,引发实际的具体行动,最终增加了搜索量,为社会系统响应趋势升高或减缓下降做出贡献。
Kwak等人[24]于2010年发表了一篇经典论文,以所获取的6058个Twitter话题的发展趋势与生存周期为参考依据,作者进一步归纳出每类话题的表征,将此话题分类方式引向更深层次的探索。作者认为外源性首要传播型话题主要指爆炸性或头条新闻,外源性次要传播型话题通常具有主题标签,内源性首要传播型话题具有持续性的本质,而内源性次要传播型话题则在短暂期间内引起极少人的关注。此外,作者还对4类话题占比进行统计分析,具体结果,如表1所示。发现外源性首要传播型话题的占比最大,而内源性次要传播型话题占比最少。可见,一个话题的发生在大多数情况下需要很强的外源影响力及互联网用户的广泛传播才能保持其生命力。
将学者们定量分析不同性质的话题而总结出的分布规律,应用到在线群体的研究中,转化为可识别其所属分类的定性方法,即通过观测社会系统响应函数的趋势,判断话题本身所具备的性质,进而对讨论话题的群体进行分类,即基于外源性首要传播型话题的在线群体、基于外源性次要传播型话题的在线群体、基于内源性首要传播型话题的在线群体、基于内源性次要传播型话题的在线群体。这种方法在相关领域研究中罕有使用,角度较新颖。
3.2. 关于内源性与外源性的解释
尚未有文献对外源性话题和内源性话题做出具体的定义,本文将对其内涵作出解释。
在计量模型范畴内,根据变量的性质将其分为外生变量和内生变量。内生变量是其数值由计量经济模型所决定的变量,即模型求解的结果,而外生变量是其数值由模型以外决定的变量。在经济体系结构中,外生变量又称政策性变量,指在经济机制中受外部因素主要是政策因素影响;内生变量,又叫非政策性变量,是指在经济机制内部由纯粹的经济因素所决定的变量。在管理学领域,认为工作压力分为内源压力和外源压力。前者来自工作本身,由工作内容、工作标准等因素造成,后者来自工作活动以外由工作环境、人际关系等因素构成[25]。在心理学领域,文献[26]将注意分为内源性注意和外源性注意。内源性注意指根据观察者的行为目标或意图来分配注意,外源性注意指观察者的视野外部的信息所引起的注意定向。
本文广泛着眼于不同专业领域,理解内源性和外源性的共通点,并结合话题的独特性对其性质进行分析。根据系统思想的启示,将讨论同一个在线话题的讨论者群体抽象为一个系统,即社会系统。一个话题在系统中流行度达到顶点的过程中,离不开内源动力与外源动力的推动。具备外源性的话题往往依靠系统外部不断地输入信息,来保持其生命力和新鲜感。围绕话题的讨论内容根据持续更新的发展状况会不断地衍化、丰富与扩展。这类话题一般指突发事件或突然引发热议的公共事件等。而具备内源性的话题,往往受到本身属性的影响,比如系统内部成员对话题内容的固有认知、体会和情感等。这些内生因素足以支撑其生存,所以称之内源性话题。这类话题一般指非突发性的、具有稳定关注者的话题。
话题的动力机制对事件发展方向,影响力的形成有着至关重要,因此本文对讨论不同类型话题的群体进行细分研究,在舆情监控领域确实是有益的尝试。
3.3操作步骤
3.3.1社会系统响应函数趋势及其观测平台选择
响应(response function)是指信息源本身会带来的影响。社会系统响应函数趋势是指在线社交网络中讨论同一个在线话题的讨论者群体由于网络中的级联影响,而产生动态分支的过程,表现为网络中的响应变化。目前,可观测社会系统响应函数趋势曲线的平台有很多,常用的比如百度指数、Google Trends和微指数。实际研究中,可根据资料的特殊性和适用性,来选择恰当的社会系统响应趋势观测平台。
3.3.2区分话题的外源性与内源性
在一个成熟的传播网络上,由于网络外部或内部所产生的信息不断输入,其流行度会呈现明显的趋势变化。外源性话题表现出幂率上升指数下降的趋势,内源性话题则呈指数上升指数下降的趋势变化。通过两个案例来展现其差别,如图2中所示。图2(a)为发生于2004年12月26日的灾难性亚洲海啸,图2(b)为电影《哈利波特》。通过绘制互联网搜索引擎中的搜索量变化图来反映社会系统响应趋势。图2(a)为具备“外源性”的典型话题,突如其来的高峰与稍缓慢的下降代表在线社交网络的突发响应,是“外源性”的标志。相比之下,图2(b)体现了话题的“内源性”,趋势具备明显的增长预示,在最高峰后的下降与之前的上升部分几乎是对称的。由此特征可以判断话题的主要动力来源。
3.3.3区分话题的首要传播性与次要传播性
文献[23]模拟出4类话题每日搜索量,如图3。发现在外源动力话题中,次要传播型话题存在没有前兆的快速增长,达到峰值后接近100%的快速下降;而首要传播型话题,达到峰值后下降的速度比次要传播型话题缓慢,持续时间较长,并且峰值的权重比例比次要传播型话题稍小,约占80%。在内源动力话题中,首要传播型话题的特点是具备明显的增长前兆和缓慢衰减,这意味着峰值的权重占总体比例很小一部分,大约20%,并且明显的前兆增长几乎与随后的缓慢下降对称;而次要传播型话题由于短期内的关注量较少,不易于形成明确的趋势增长与衰退规律,但与内源性首要传播型话题相较,可显而易见发现区别,故可用排除法来确定此类话题。为了更清晰地明确识别过程,实际操作时可遵循图4中流程。
分享让更多人看到
- 评论
- 关注