基于社会系统响应函数的在线群体分类研究【2】
4在线社交网站中各类话题的分布研究
4.1话题选取
运用本文介绍的方法,讨论在线社交网站中,不同平台中话题的分布情况。选取了新浪微博与百度贴吧,并分别运用微指数、百度指数观测话题趋势。新浪微博中微话题的24小时话题榜选取11月9日的前500个话题。在百度贴吧提取11月7日-11月9日热门贴吧的中心词作为话题。
4.2数据清洗
依次去掉(1)重复话题、(2)微指数和百度指数还未收录的话题、(3)正处于上升阶段即目前尚观测不出完整趋势的话题,分别剩余194个新浪微博话题和72个百度贴吧话题。
4.3定性判断
根据前文提出的流程方法,观测每个话题完整的生命周期。
在具体操作时,最理想的情况是该话题拥有一个明显清晰的趋势曲线,在话题生命周期中,除主要波动期外的观测期内没有干扰判断的波动,如图5所示。
但有时趋势曲线并不明确或不易识别,因此,本文尝试对这些情况进行分类讨论:
(1)较易于判断的趋势情况如图6所示,波动虽多,但是大部分波动极差较小可忽略不计。通过找到生命周期内极差最大且峰值最高的与众不同的完整波动期,以此时间周期来判断其话题性质较为精确。
(2)在观测时间范围内,波动较多,且波动期内极差稍大不可忽略。但却拥有明显的高峰,可以分辨出峰值最高且观测期内极差最大的周期(见图7(a)),此时应以此周期为主要分析对象来判断其类型;当最高峰值有多个且相邻时,可将此连续高峰看成一个生命周期来进行后续判断(见图7(b))。
3)当观测的时间范围内,波动较多,拥有多个高峰,且峰值较接近,无法分辨出峰值最大的周期时(见图8)。这种情况时,视为无明显趋势曲线。
4.4研究结果
为验证方法实用性,本研究运用上述方法对4类话题进行识别。同时邀请3位社交网络分析领域专家,对话题进行人工分类。结果显示,本方法的总准确率为0.632,其中对外源性首要传播型话题识别的准确率为0.720,对外源性次要传播型话题识别的准确率为0.525,对内源性首要传播型话题识别的准确率为0.643,对内源性次要传播型话题识别的准确率为0.476,准确率较为理想。另外,外源性首要传播型话题的召回率为0.727,外源性次要传播型话题的召回率为0.681,内源性首要传播型话题的召回率为0.509,内源性次要传播型话题的召回率为0.714,召回率比较理想。
最终得到4类在线话题的占比分别占比如表2所示。对比两个在线社交平台中的话题分布,发现两者的分类比例略有不同。相同的是,(1)两个平台中首要传播型话题均多于次要传播型话题,验证了话题的首要传播性是维持其登上持续热榜的重要因素;(2)内源性次要传播型话题均占少量比例,可见缺乏爆发性与传播性的话题只能引起小众的讨论,并不广泛。
不同的是,新浪微博平台中外源性话题较多,而百度贴吧中内源性话题较多,非常符合两个平台的定位与宗旨。新浪微博可以让你“随时随地发现新鲜事!”,人们期待在这里看到最新、最全的咨讯内容,尤其对爆发性的突发事件感兴趣,所以热榜中外源性话题居多。文献[27]也认为新浪微博是信息发布和分享、人际传播交流的新渠道,面向熟悉的人或全体公众快速地分享“即时”信息,在此兴起的话题大多借助了外源推动力,因此外源性话题较多。而百度贴吧是“以兴趣主题聚合志同道合者的互动平台”,最热门的讨论内容恰恰是人们日常所热爱、关心的事物,所以内源性话题较多。对此结果,其他学者也曾从不同角度论证过,如文献[28]通过对粉丝文化变迁的解读,将百度贴吧定位为一个为粉丝的聚集而诞生的快速、定向性强的渠道,在这里粉丝很容易找到与其兴趣相同的“粉丝”;文献[29]认为百度贴吧具备网络趣缘群体的基本特征,在此聚集起来的群体有广泛性、异质性、匿名性等特点,群体成员平时联系不频繁,很难建立起亲密的关系,往往因为同一个话题而聚集在一起讨论。可见,两个平台的网站定位十分不同,百度贴吧成员主要因为对话题本身的兴趣而聚集起来,而新浪微博成员则是出于对新鲜话题的猎奇心态,由此,也造成了内外源话题得比例不同。
统计结果与文献中提到的分类占比略有不同,主要差别是内源性首要传播型话题数量明显增长,外源性次要传播型话题比例降低。造成差异的原因可能为本研究中话题均选择于热门话题中24小时热门榜单和持续热门的话题,上榜话题持续时间较长,因此次要传播型话题相对较少,且话题数量基数不同。
5结束语
依据国外学者们的定量实证研究,结合在线社交网络的独特性和所讨论话题的差异性,介绍了基于社会响应函数的在线群体分类方法。简单概括为首先根据话题趋势图中是否具备突如其来的快速增长来区分在线话题的内、外源性,再根据下降趋势和持续时间来辨别其首要传播性和次要传播性,以此将在线群体分为4大类——基于外源性首要传播型话题的在线群体、基于外源性次要传播型话题的在线群体、基于内源性首要传播型话题的在线群体和基于内源性次要传播型话题的在线群体。此外,提出了具体的操作流程框架,解析了可能遇到的常见状况。
并运用此方法抽样估计出以新浪微博和百度贴吧为代表的在线社交网站中每类话题的分布情况,发现新浪微博平台的用户更加热衷于讨论新鲜感十足的外源性话题,而百度贴吧平台的用户更关注以自身兴趣为中心的内源性话题。同时,验证了话题的首要传播性更利于帮助话题登上持续时间长的热榜。
然而本文也存在一定的局限性,此方法虽然是基于之前学者们定量研究得出的结论,并采用与专家交流经验的方法进行了实证运用,但是仅作为初步科学识别在线话题类型的定性研究方法。介绍此方法的目的在于能够使研究人员快速地、便捷地对在线话题事件类型做出科学判断。未来还需要在以下几方面进行进一步研究:(1)目前观测社会响应系统函数的平台集中于少量互联网搜索引擎提供的搜索指数查询平台,对在线话题的收录数量有限,无法涵盖全部在线话题,需进一步扩大观测平台的选择范围;(2)此方法对观测数据要求较高,要求函数中必须可体现出一个完整的话题生命周期。下一步可尝试结合定量分析,预测正处于发展阶段的在线话题的未来发展趋势;(3)由于定性方法的局限性,只能大致根据话题趋势判断出其性质,若在实际操作时遇到模棱两可、无法确定的情况,还需考虑依据专家经验来进一步明确,未来需通过大量基于此方法的实证研究来总结补充完善此方法,使之在快速有效的基础上能够更加精确细致、尽可能客观周全。
参考文献
BON Gustave Le. The Crowd : A Study of The Popular Mind[M]. New York,The Macmillan CO., 1896:11-43
ARMSTRONG A, III J H. The real value of online communities [J]. Harvard Business Review, 1996, 74(3):85-95. doi: 10.12691/ijefm-2-2-2.
曹玖新, 陈高君, 吴江林,等. 基于多维特征分析的社交网络意见领袖挖掘[J]. 电子学报, 2016, 44(4):898-905. doi:10.3969/j.issn.0372-2112.2016.04.021
CAO Jiuxin, CHEN Gaojun, WU Jianglin, et al. Multi-feature based opinion leader mining in social networks[J] Acta Electronica Sinica, 2016, 44(4):898-905. doi:10.3969/j.issn.0372-2112.2016.04.021
吴信东, 李毅, 李磊. 在线社交网络影响力分析[J]. 计算机学报, 2014(4):735-752.
WU Xindong, LI Yi, and LI Lei. Influence analysis of online social networks[J]Chinese Journal of Computers, 2014(4):735-752.
李东方, 俞能海, 尹华罡. 一种Web 2.0环境下互联网热点挖掘算法[J].电子与信息学报, 2010, 32(5):1141-1145. doi:10.3724/SP.J.1146.2009.00641
LI Dongfang, YU Nenghai, and YIN Huagang. Mining hot topic on Internet under web 2.0 [J] Journal of Electronics & Information Technology, 2010, 32(5):1141-1145. doi:10.3724/SP.J.1146.2009.00641
ZHAO L, LI Y, LIU X, et al. A graph-based bursty topic detection approach in User-generated texts[C] IEEE Web Information System and Application Conference, Tianjin,China,2015:273-278. doi:10.1109/WISA.2014.57
ZHANG C, WANG H, CAO L, et al. A hybrid Term-term relations analysis approach for topic detection[J]. Knowledge-Based Systems, 2015, 93(11):109-120. doi: 10.1016/j.knosys.2015.11.006
刘权, 郭武. 基于核主成分分析的话题跟踪系统[J]. 清华大学学报:自然科学版, 2013(6):865-868.
LIU Quan, and GUO Wu. Topic tracking system based on kernel principal component analysis[J]. Journal of Tsinghua University: Natural Science Edition, 2013(6):865-868.
谢丽星, 周明, 孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J]. 中文信息学报, 2012, 26(1):73-83.
XIE Lixing, ZHOU Ming, and SUN Maosong. Sentiment analysis and feature extraction of Chinese micro-blog based on hierarchical structure[J] Journal of Chinese Information Processing, 2012, 26(1):73-83.
REN Yafeng, WANG Ruimin, and JI Donghong. A Topic-enhanced word embedding for twitter sentiment classification[J]. Information Sciences, 2016.24(7):1031-1040, doi:10.1016/j.ins.2016.06.040
刘玉新. Web2.0互联网在线话题发现和热度评估[D]. [硕士论文].华南理工大学,2013:23-45.
LIU Yuxin. Web2.0 Internet online topic discovery and hotness evaluation[D]. [Master dissertation]. South China University of Technology,2013:23-45.
龙志祎,程葳,沈俊辉. TDT中新发现话题的分类研究与实现[J].武汉理工大学学报:信息与管理工程版, 2009, 5 (5):762-765.
LONG Zhiyi, CHEN Wei, and SHEN Junhui. Research and implementation of new detected topic classification in TDT technology[J]. Journal of Wuhan University :Information & Management Engineering , 2009, 5 (5):762-765.
刘宝忠.微博客在线社会网络的特性研究[D]. [硕士论文]. 西安理工大学, 2011:32-35.
LIU Baozhong. The research on the characteristics of microblog[D]. [Master dissertation]. Xi'an University of technology, 2011:32-35.
张永军, 刘金岭, 马甲林. 中文短信文本信息流中多话题的分类抽取[J]. 现代图书情报技术, 2014, 30(Z1):101-106.
ZHANG Yongjun, LIU Jinling, and MA Jialin.Classification of multi topic extraction based on Chinese short information text message flow[J]. New Technology of Library and Information Service, 2014, 30(Z1):101-106.
易欣.“微话题”的社会语言学解读[J]. 北方文学旬刊, 2013(6):143-145.
YI Xin. A socio linguistic interpretation of the "micro topic"[J]. Northern Literature magazine, 2013(6):143-145.
张萌. 关于新浪微博热门话题的分析研究[D]. [硕士论文].山东大学, 2015:11-24.
ZHANG Meng. The analysis of the hot topics on Sina microblog[D]. [Master dissertation]. Shandong University, 2015:11-24.
洪宇,张宇,刘挺,等.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007, 21(6): 71-87. doi:10.3969/j.issn.1003-0077.2007.06.011
HONG Yu ,ZHANG Yu ,LIU Ting , et al. Review on the evaluation and research of topic detection and tracking [J]. Journal of Chinese Information Processing, 2007, 21(6): 71-87. doi:10.3969/j.issn.1003-0077.2007.06.011
ELLISON N B.Social network sites: definition,history,and scholarship[J].Journal of Computer-Mediated Communication,2007, 13(1) : 210-230. doi:10.1109/EMR.2010.5559139
SPROULL L. Online Communities[M] New York, Handbook of Computer Networks: Distributed Networks, Network Planning, Control, Management, and New Trends and Applications, 2012:898-914. doi:10.1002/047148296X.tie128
ALDRICH H E, RUEF M. Organizations evolving [M]. London,SAGE Publications Ltd, 2006:121-123. doi: 10.4135/9781446212509
MATZAT U. A Theory of relational signals in online groups [J]. New Media & Society, 2009,11(3):375-394. doi: 10.1177/1461444808101617
SORNETTE D , DESCHATRES F , GILBERT T , et al. Endogenous versus exogenous shocks in complex networks:an empirical test using book sale rankings[J]. Physical Review Letters, 2004, 93(22):211-218. doi:10.1103/PhysRevLett.93.228701
CRANE R. Robust dynamic classes revealed by measuring the response function of a social system [J]. Proceedings of the National Academy of Sciences, 2008,105(41):15649-15653. doi: 10.1073/pnas.0803685105
KWAK H, LEE C, PARK H, et al. What is twitter, a social network or a news media? [C]. the 19th International World Wide Web (WWW) Conference, Raleigh,NC ,USA, 2010:591-600.
许小东. 管理者工作内源压力与外源压力的结构模型研究[J]. 管理工程学报, 2007, 21(1):3-40.
XU Xiaodong.A structure modeling study on the job intrinsic stressors and extrinsic stressors of the managers[J] Journal of Industrial Engineering and Engineering Management, 2007, 21(1):3-40.
POSNER M I. Orienting of attention [J] Quarterly Journal of Experimental Psychology, 2007, 32(1): 3-25
宋恩梅, 左慧慧. 新浪微博中的“权威”与“人气”:以社会网络分析为方法[J].图书情报知识, 2012(3):43-54.
SONG Enmei, ZUO Huihui. "Authority" and "popularity" in micro-blog Sina: a social network analysis method[J]. Documentation,Information & Knowledge, 2012(3):43-54.
李珊珊. 百度贴吧10周年,为兴趣而生——关于贴吧十年粉丝文化变迁的解读[J]. 新闻世界, 2014(10):202-204.
LI Shanshan. Baidu Tieba 10 anniversary, for the interest and life -- on the BBS ten years fans cultural changes[J]. News World. , 2014(10):202-204.
路双. 浅析网络趣缘群体的特征——以百度贴吧爆料贴为例[J]. 新闻世界, 2015(3):47-48.
LU Shuang. Analysis of the characteristics of the network interest margin group-- Baidu Tieba posted as an example[J]. News World. , 2015(3):47-48.
分享让更多人看到
- 评论
- 关注