人民网
人民网>>传媒>>人民网奖学金>>清华新闻2015

你为何而转:微博用户转发行为预测模型的构建与影响因素探究【2】

林成龙
2016年03月08日16:46 | 来源:人民网研究院
小字号

影响因素分析

为了分析各个特征对转发行为的影响力,采用信息增益计算各个特征的信息增益值。根据式(2),每个特征的信息增益值如表3所示。


本研究包含两项研究目的:构建模型对微博用户转发行为进行预测;对转发行为的影响因素进行分析和排序。针对第一项研究目的,本研究构建了基于Lasswell的“5W模式”的预测模型。通过新浪微博的数据样本对预测模型进行评估,发现模型的表现相当令人满意。针对第二项研究目的,本研究采用信息增益算法,对所提取的39个二级维度特征的影响力大小进行排序。结果发现,微博作者活跃度、微博作者和接受者标签相似度、接受者活跃度、微博类型与作者标签相似度等4个特征对微博用户转发行为的影响最大,而传统意义上对转发行为有较大影响的因素,如微博作者是否被认证,微博是否有超链接等,其影响并不显著。

六、讨论

本研究构建的预测模型表现令人满意,其精确率达到82.91%。但同时其查全率(58.67%)相对较低,这主要是由于数据样本的不平衡性造成的。事实上,在新浪微博平台上,绝大多数的微博并没有被转发,随机抽取的数据样本很好的反应了这种现实。类别为转发微博的样本量为8163,占总数的3.91%,类别为未转发微博的样本量为200584,占96.09%。对于基于支持向量机的预测模型,两类样本比例的不平衡性将严重影响分类结果。虽然在构建模型时,已对不同类别使用不同的惩罚系数,以求修正不平衡数据样本的影响,但是惩罚系数的取值,只能在实践中摸索,没有标准的方法。因此,预测模型的查全率相对降低。

对39个二级维度特征排序,排名前4位的特征(微博作者活跃度、作者和接受者标签相似度、微博接受者活跃度、微博类型与接受者的标签相似度)的信息增益值均大0.1,可归纳为影响转发行为最重要的因素。其中,微博作者活跃度排名榜首,这意味着微博作者越活跃,即他在单位时间内发布的微博数量越多,他所发布的微博就越容易被转发;微博作者和接受者标签相似度排名第二,微博接受者倾向于转发与他们有着相同兴趣爱好的用户所发布的微博。根据传播学中“使用与满足”理论[[36]],用户关注的往往都是自己感兴趣的用户,因此对他们的微博,用户通常感到满意并乐意转发。这也与已有研究发现的用户更倾向于转发与他们兴趣爱好相符合的Tweet的结论一致[[37]];第三是接受者活跃度,这意味相比于不活跃的用户,那些更活跃的用户更倾向于转发微博。排名第四的是微博主题与接受者标签相似度。这为Rudat的结论提供了证据[12],即因为微博主题和接受者兴趣的相似程度将极大的影响该条微博是否被转发,所以微博作者倾向于发布于自己粉丝兴趣爱好相似的微博。

在排名中游的特征中,大多和微博作者或接受者本身的特点有关,例如排名第八的接受者微博数,排名第10的微博作者关注数等。这些因素通常用来表征用户的影响力,这与已有研究结论一致[[38]],即用户的影响力对于Tweet转发有一定影响,但并不十分强烈。

有一些特征的影响力与已有研究存在差异。例如微博长度仅排名第19位,虽然先前研究表明,Tweet过长或过短都会影响转发行为[[39]]。从样本中可见,微博长度的均值为51.5,标准差为45.91,这说明样本中很少有过长或过短的微博。因此,可以推测在新浪微博平台上,用户不倾向于发布过长或过短的微博,这导致微博长度对于用户的转发行为影响并不强烈。Sub等人认为,微博中的hashtag和超链接将显著影响用户的转发行为13,但微博中的hashtag数仅仅排名第30位,微博中是否有超链接则排名第38位。这可能因为新浪微博中hashtag的使用频率显著低于Twitter平台上其使用频率。在Sub等人的实验中,数据样本中的超链接多为Youtube、Facebook等国际网站,而新浪微博的用户更偏爱中文网站。所以超链接指向的内容不同,可能导致其对转发行为的影响力不同。另外,有学者认为已认证的作者将获得更多信任[[40]],但本研究中作者是否被认证仅排名第27位,表明作者是否被认证并不显著影响其微博是否被转发。事实上在新浪微博平台上,越来越多的高转发微博,特别是和社会热点事件相关的,多是由普通用户首先所发布的。

七、结论与展望

本研究的结论在微博营销方面存在潜在应用。企业可以精心设计对转发行为影响最大的因素来促进其产品的销售。此外,本研究构建的预测模型也可用于探测可能具有高转发率的微博,从而有效引导公众舆论和控制谣言扩散。不仅如此,通过预测微博用户的转发行为,对理解其行为背后的动机也有所帮助。

根据本研究的结论,将来还有很多工作需要完成。首先,如何更好的确定微博接受者,以排除没有看到给定微博的用户,有待进一步探讨。同时本研究与先前研究关于某些特征影响力的分歧,是由于数据样本来自不同的微博平台,及微博用户所具有的不同社会情景和文化因素所引起的,还是由于微博平台本身随时间的变化而引起的,还有待进一步的分析。



[1] 数据来源:Xinhua Net. 34th Statistical Report on Internet Development China Internet Network. (2014-01-16)

[2] 数据堂网站是国内专业的科研数据共享服务平台,致力于为国内外高等院校、科研机构、研发企业及相关科研人员提供科研数据支持。



[[1]] Kaplan, A. M. & Haenlein, M., "The early bird catches the news: Nine things you should know about micro-blogging", Business Horizons, vol. 54, no.2, 2011, pp.105-113.

[[2]] Xiong, X., Zhou, G., Niu, X., Huang, Y. & Xu, K., "Remodeling the network for microgroup detection on microblog", Knowledge and Information Systems, vol. 39, no. 3, 2014, pp.643-665.

[[3]] Li, W. & Xu, H., "Text-based emotion classification using emotion cause extraction", Expert Systems with Applications, vol.41, no.4, 2014, pp.1742-1749.

[[4]] Berger, J. & Milkman, K., "Social transmission, emotion, and the virality of online content", Wharton Research Paper, 2010.

[[5]] Marlow, C. A.: “The structural determinants of media contagion”, Doctoral dissertation, Massachusetts Institute of Technology, 2005.

[[6]] Kwak, H., Lee, C., Park, H. & Moon, S., "What is Twitter, a social network or a news media?”, Proceedings of the 19th international conference on World wide web, ACM, 2010, pp. 591-600.

[[7]] Grabowicz, P. A., Ramasco, J. J., Moro, E., Pujol, J. M. & Eguiluz, V. M., "Social features of online networks: The strength of intermediary ties in online social media”, PloS one, vol.7, no.1, 2012, pp.e29358.

[[8]] Qiu, L., Lin, H., Ramsay, J. & Yang, F., "You are what you tweet: Personality expression and perception on twitter”, Journal of Research in Personality, vol.46, no.6, 2012, pp.710-718.

[[9]] Westerman, D., Spence, P. R. & Van Der Heide, B. "A social network as information: The effect of system generated reports of connectedness on credibility on Twitter”, Computers in Human Behavior, vol.28, no.1, 2012, pp.199-206.

[[10]] Bandari, R., Asur, S. & Huberman, B. A., "The Pulse of News in Social Media: Forecasting Popularity”, ICWSM, 2012.

[[11]] Rudat, A., Buder, J. & Hesse, F. W., "Audience design in Twitter: Retweeting behavior between informational value and followers’ interests”, Computers in Human Behavior, vol.35, 2014, pp.132-139.

[[12]] Suh, B., Hong, L., Pirolli, P. & Chi, E. H., "Want to be retweeted? large scale analytics on factors impacting retweet in twitter network”, Social computing (socialcom), 2010 ieee second international conference on, IEEE, 2010, pp.177-184.

[[13]] Yang, M. C. & Rim, H. C., "Identifying interesting Twitter contents using topical analysis”, Expert Systems with Applications, vol.41, no.9, 2014, pp.4330-4336.

[[14]] Xu, Z. & Yang, Q., "Analyzing user retweet behavior on twitter”, Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012), IEEE Computer Society, 2012, pp.46-50

[[15]] Hong, L., Dan, O. & Davison, B. D., "Predicting popular messages in twitter”, Proceedings of the 20th international conference companion on World wide web. ACM, 2011, pp.57-58

[[16]] Petrovic, S., Osborne, M. & Lavrenko, V., "RT to Win! Predicting Message Propagation in Twitter”, ICWSM, 2011.

[[17]] Zhang, H. P., Zhang, R. Q., Zhao, Y. P. & Ma, B. J., "Big data modeling and analysis of microblog ecosystem”, International Journal of Automation and Computing, vol.11, no.2, 2014, pp.119-127.

[[18]] Lasswell, H. D, "The structure and function of communication in society”, The communication of ideas, vol.37, 1948.

[[19]] Ma, B. L. W. H. Y. "Integrating classification and association rule mining”, Proceedings of the 4th on Knowledge Discovery and Data Mining. 1998, pp.80-86.

[[20]] Mehta, M., Agrawal, R. & Rissanen, J., "SLIQ: A fast scalable classifier for data mining”, Advances in Database Technology-EDBT'96, Springer Berlin Heidelberg, 1996, pp.18-32.

[[21]] Wang, X. Y., Chen, J. W. & Yang, H. Y., "A new integrated SVM classifiers for relevance feedback content-based image retrieval using EM parameter estimation”, Applied Soft Computing, vol.11, no.2, 2011, pp.2787-2804.

[[22]] Vapnik, V. & Vashist, A., "A new learning paradigm: Learning using privileged information”, Neural Networks, vol.22, no.5, 2009, pp.544-557.

[[23]] Zhang, Y., Jia, S. & Zhang, W. "Predicting acetic acid content in the final beer using neural networks and support vector machine”, Journal of the Institute of Brewing, vol.118, no.4, 2012, pp.361-367.

[[24]] Cajka, T., Riddellova, K., Tomaniova, M. & Hajslova, J., "Recognition of beer brand based on multivariate analysis of volatile fingerprint”, Journal of Chromatography A, vol.1217, no.25, 2010, pp.4195-4203.

[[25]] Shi, J. Y., Zou, X. B., Huang, X. W., Zhao, J. W., Li, Y. X., Hao, L. M. & Zhang, J. C., "Rapid detecting total acid content and classifying different types of vinegar based on near infrared spectroscopy and least-squares support vector machine”, Food chemistry, vol.138, no.1, 2013, pp.192-199..

[[26]] Scholkopf, B., Sung, K. K., Burges, C. J., Girosi, F., Niyogi, P., Poggio, T. & Vapnik, V., "Comparing support vector machines with Gaussian kernels to radial basis function classifiers”, Signal Processing, IEEE, Transactions on vol.45, no.11, 1997, pp.2758-2765.

[[27]] Xu, Z. & Yang, Q., "Analyzing user retweet behavior on twitter”, Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012), IEEE Computer Society, 2012, pp.46-50.

[[28]] Farid, D. M., Zhang, L., Rahman, C. M., Hossain, M. A. & Strachan, R. “Hybrid decision tree and na?ve Bayes classifiers for multi-class classification tasks”, Expert Systems with Applications, vol.41, no.4, 2014, pp.1937-1946

[[29]] Duda, R. O. & Hart, P. E., "Pattern recognition and scene analysis”, 1973.

[[30]] Farid, D. M., Rahman, M. M. & Al-Mamuny, M. A., "Efficient and scalable multi-class classification using na?ve Bayes tree”, Informatics, Electronics & Vision (ICIEV), 2014 International Conference on. IEEE, 2014, pp.1-4.

[[31]] Kullback, S. O. L. O. M. O. N., "An application of information theory to multivariate analysis”, The Annals of Mathematical Statistics, 1952, pp.88-102.

[[32]] Barbieri, A. L., De Arruda, G. F., Rodrigues, F. A., Bruno, O. M. & Costa, L. D. F., "An entropy-based approach to automatic image segmentation of satellite images”, Physica A: Statistical Mechanics and its Applications, vol.390, no.3, 2011, pp.512-518.

[[33]] Yang, Y. & Pedersen, J. O., "A comparative study on feature selection in text categorization”, ICML, vol.97, pp.412-420

[[34]] Zhang, H. P. & Liu, Q., ICTCLAS. Institute of Computing Technology, Chinese Academy of Sciences: http://www.ict.ac.cn/freeware/003_ictclas. asp, (2002)

[[35]] Fan, R. E., Chen, P. H. & Lin, C. J., "Working set selection using second order information for training support vector machines”, The Journal of Machine Learning Research, vol.6, 2005, pp.1889-1918.

[[36]] Bryant, J. & Miron, D., "Theory and research in mass communication”, Journal of communication, vol.54, no.4, 2004, pp.662-704.

[[37]] Xu, Z., Zhang, Y., Wu, Y. & Yang, Q., "Modeling user posting behavior on social media”, Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval, ACM, 2012, pp.545-554.

[[38]] Uysal, I. & Croft, W. B., "User oriented tweet ranking: a filtering approach to microblogs”, Proceedings of the 20th ACM international conference on Information and knowledge management, ACM, 2011, pp.2261-2264.

[[39]] Comarela, G., Crovella, M., Almeida, V. & Benevenuto, F., "Understanding factors that affect response rates in twitter”, Proceedings of the 23rd ACM conference on Hypertext and social media, ACM, 2012, pp.123-132

[[40]] Feng, W. & Wang, J., "Retweet or not?: personalized tweet re-ranking”, Proceedings of the sixth ACM international conference on Web search and data mining, ACM, 2013, pp.577-586

 

(责编:王妍(实习)、燕帅)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部