首页
党政
- 党网 · 时政
- 人事
- 反腐
- 理论
- 党史
- 党建
要闻
- 经济 · 科技
- 社会 · 法治
- 文旅 · 体育
- 健康 · 生活
- 国际
- 军事
- 港澳
- 台湾
- 教育
- 房产
- 科普
观点
互动
可视化
- 视频
- 图片
- 图解
地方
- 京
- 津
- 冀
- 晋
- 蒙
- 辽
- 吉
- 黑
- 沪
- 苏
- 浙
- 皖
- 闽
- 赣
- 鲁
- 豫
- 鄂
- 湘
- 粤
- 桂
- 琼
- 渝
- 川
- 黔
- 滇
- 藏
- 陕
- 甘
- 青
- 宁
- 新
- 鹏
- 雄安
举报专区
多语言
- |
合作网站
登录

退出

网络外部性在交互式问答社区的适用性研究

——以知乎效用问题为例

闫佳琦严宇桥高钰婧

2020年01月08日09:37 |

小字号

摘要：信息消费作为经济学、传播学、社会学的交叉问题，在互联网社会中备受关注。本研究以UGC网络问答社区——知乎为案例切入，通过文本分析，探讨传媒经济学中网络外部性原理“效用与用户量呈正相关”命题在当今交互式问答社区中的适用性。在为经典理论提出限制条件的基础上，从信息论相关理论出发，结合实际数据建构出新的效用测量指标，并使用概率数学模型提出效用与用户总量关系的新命题。

关键词：网络外部性；UGC交互社区；文本分析；概率模型

一、研究背景

（一）实际背景

本世纪的第一个十年可谓交互式问答社区的滥觞时期，起初是各大论坛BBS各领风骚，其后有百度贴吧、天涯论坛、虎扑步行街等引领潮流。然而，这些网站经过若干年发展之后，不约而同出现了贴子良莠不齐问题，迈过了最为辉煌的鼎盛阶段，原本的分众兴趣组织型社区转变为娱乐戏谑的情绪化社区。

随着本世纪第二个十年接近尾声，互联网社群的发展进入了新的阶段，交互式问答社区成为近年来发展最为迅速的社群之一。尤以典型代表知乎为例，其以严肃型问答平台的姿态进入广大网民的视野，2010年底创办初期以邀请制完成新用户注册，广泛稳定的高质量回答、优良严谨的用户素质以及近似学术交流的讨论氛围在互联网论坛中独树一帜。2013年初面向公众开放注册权限，一年之内用户数量攀升十倍。其后，知乎用户的数量更是连年飙升，截至2017年底已经突破1亿用户。但是随之而来的，是近年来负面反馈波动增多，其中关键就包括对知乎水贴泛滥的诟病，这也成为了近期研究网络问答社区的重点议题。

CNNIC 8月发布的《第42次中国互联网络发展状况统计报告》显示，我国网民数量逐年增加，截止6月，网民数量超8亿，普及率已经达到了57.7%，与之对应的学历结构中可以看到，大学本科及以上学历再次下降，只占其中10.6%，网民仍以中等教育水平的群体为主。内容产品逐步下沉的增长策略，进一步扼杀了建设高质量小圈层讨论社区的可能性。

（二）理论背景

Katz 和 Shapiro 两位学者于1985年第一次提出了网络外部性的概念，他们将网络外部性定义为当消费同样产品的其他使用者的人数增加时，某一使用者消费该产品所获得的效用增量。关于网络外部性的主流分类，目前被普遍采用的有两种：一是根据影响性质，即正向与负向；二是根据影响方式，即直接或间接。

Liebowitz（1994）对网络外部性提出质疑，他认为如果人数过多，但资源结构体系一定时，可能会使每个人获得的效益更少，所以，他劝喻人们在应用网络外部性理论的同时考虑实际情况。王伟（2017）认为，在知乎社区中可能出现高质量答案被其他低质量答案淹没的情形，尤其对于观看及点赞人数不多的题目。因此，本研究基于现有理论与实际情况，做出网络外部性理论在问答社区范围内不适用的研究假设，并提出此情况下的新命题。

就现有网络调查结果显示，随着知乎的注册用户不断增多，知乎用户对于知乎环境和体验的负面舆情声量越来越强，尤其是关于过滤大量无效信息而披沙拣金、劳心劳力的抱怨。知乎越来越像没有门槛但使用体验也随之明显变差的百度贴吧，因此“知乎贴吧化”成为知乎当前面临的一个转折点。

（三）研究思路

经典经济学“网络外部性”原理似乎不能解释网络交互式问答社区现有的问题。因此，本研究的核心问题是：

1、“网络外部性”理论在当下网络交互式问答社区中是否适用？如何证伪？

2、如果该理论在该条件下被证伪，单个用户效用和总用户数量之间是否有关？有什么样的关系？关系转折点是否存在？关系转折点是否可测？

二、网络外部性的反思：从效用入手

（一）效用的理论解释

效用（Utility）又名功用，是经济学中最常用的概念之一，是指商品满足人的欲望的能力，或者说效用是指消费者在消费商品时所感受到的满足程度。从消费的主体来讲，效用是某人从自己所从事的行为中得到的满足；从消费的客体来讲，效用是商品满足人的欲望或需要的能力。

网络外部性研究的核心问题，是对“效用”的理解。效用是一种主观的心理评价，是消费者对商品满足自己的欲望的能力的一种主观认知；对此的通俗理解可以称为“产品体验”或“用户满意度”。在现有传媒经济理论中，用户的产品体验也就是对于使用媒介产品产生的感受被称为“效用”，而“效用”和接入此媒介产品的用户数量关系的原理也被称为“网络外部性”原理。

（二）效用的测量方法

对效用的测量方法，西方经济学家先后提出了基数效用和序数效用的概念。基数效用论者认为效用是可以衡量和加总的。序数效用论者认为，效用是不可以度量的而且度量也是没意义的，效用只能排序。

两种对效用的测量方法形成了两种分析消费者行为的方法，分别是基数效用论者的边际分析方法、序数效用论者的无差异曲线的分析方法。但是根据网络外部性理论，效用作为一个可测定的基数量可以和接入其他用户的数量成正相关关系，因此在研究该理论时采取基数效用论，即效用是可以利用一系列代换测定的。

（三）效用的可测代换

现实生活中，Brien（1991）认为我们在接收其他人给予的信息后，所获得的价值取决于信息质量，其包含信息的内容及形式等。高智勇等人（2006）认为信息质量取决于用户对所获得的信息内容的满意度，达到一定程度满足的信息有对人们才有价值。移动端用户体验领域的研究者刘冰（2011）根据用户在使用网络平台时的体验，认为信息的易用性、可靠性、适用性可以反映信息的效用价值。

综上，网络外部性聚焦于效用，效用又可以通过用户反馈来反应。正面反馈表示信息令人满意，信息效用高，网络外部性正向效果成立；负面反馈表示满意程度差、信息效用低，网络外部性正向效果不成立。由此，通过效用的可测代换，抽象的网络外部性可以直接通过具体的用户正面反馈、负面反馈来体现。后期通过分析用户正负面情绪，即可与用户人数进行交叉分析，验证原有网络外部性理论的适用性。

三、网络外部性的证伪：以数据为本

通过观察知乎用户在不同时间段内对平台的反馈和此时间段内用户数量进行对比分析，观察网络外部性理论在知乎平台适用程度，从而证伪。

（一）研究设计

H0：知乎的总用户量与用户的正面反馈指数呈线性正相关。

H1：知乎的总用户量与用户的正面反馈指数不呈线性正相关。

对于用户体验与反馈的研究，由于知乎用户数量过于庞大，实验法在不控制变量的情况下效度偏低。而用户数量是一个不断动态变化的量，采用被试回想型的问卷调查则信度偏低。因此，保证信度和效度的技术手段将采取能够保证覆盖几乎所有用户的，且在知乎发展的各个过程都可以向前追溯观测到的方法——基于大数据信息采集的内容分析法。

首先，由于知乎用户数量和反馈指数本身无法观测，因此需要采用一个中介变量来进行代换计算。假设反馈指数可以通过文本分析测量，则反馈状况在不同时间的变化就可以通过大数据对于不同时间段内文本的爬取来得出这些反馈出现的时间点，则可以得出时间段和采集的文本情况的关系。

其次，对于用户对于知乎平台本身的评价，可以采用的手段为采集同时间段内知乎回答条目下方的评论文本，以用户对于知乎平台感受的关键词为筛选词汇，类似的关键词“知乎”、“越来越”“正在变得”“体验”，从知乎开放注册以来的评论一直爬取到2017年12月，并进行筛选，就可以得出抽样调查的文本内容，从而通过文本内容进行分类数据处理，测定负面反馈程度。

第三，“反馈”作为一种变量无法直接测得，由于知乎上已经爬取到的评论主要以文本内容为主，因此可以采用智能文本分析也就是语义分析的手段来进行测量。在负面反馈程度测定中，采用语义分析中的“负面情感趋向指数”的测试来判定负面反馈指数，将采集到的文本数据进行分类处理后分析就可以测量。

（二）具体操作

1、用户数量采集

知乎官方和一些高质量用户从2013年以来每隔一段时间都会发布知乎平台用户总数量的统计或者计算报告，根据这些用户总量的时间点可以推算出关键时间节点上知乎用户数量的大致情况。

2、用户内容爬取

本次数据采集的对象为，知乎平台中用户关于知乎使用体验的评论贴和回复贴。数据采集时间区间从2012年2月开始，至2017年12停止。数据采集工具为PYTHON爬虫工具。

从知乎搜索入口共查找130万条数据，经过筛选共选出符合研究要求的数据约为18万条评论。筛选逻辑关键词为：感受、使用、知乎、体验、用户、贴吧化等关键词，进行多次爬取和筛选。最终，将同一个月的用户评论进行归并和处理，并剔除无效信息，最终把每个月所爬取得的所有用户体验类评论整理合并成同一个文档，每月归并成单独的文本库。

3、用户情感分析

本研究使用波森数据分析平台的中文语义分析系统，其分析逻辑主要基于词性分析、依存文法、情感指数分析。将每月的文本库内容输入平台进行情感价值判断分析，从而得出负面情感指数，便可把握所爬取的月总体评价性文本对于知乎使用和知乎本身的态度，也就能够和“受众体验”即受众效用进行代换来计算。若此负面情感指数和时间以及受众的变化并无明显相关性，则并无相关关系。

（三）研究结论与证伪

将“用户数量-时间”、“负面指数-时间”两组数据按照上文中的步骤进行归并、整理、代换，并代入网络外部性的原有线性负相关假设，计算结果为：从2011年2月至2017年9月期间，知乎注册用户人数及负面指数相关检验不显著(p=.397>.05，r=.106)，与网络外部性理论假设不符，原假设在此条件下不成立。因此，网络外部性在此条件下得以证伪，其在交互式问答社区中并不适用。

另外，从研究数据中也可以观测到用户量和负面指数之间存在着相关的规律，这种新观测到的规律分析如下：

观察“图3.知乎平台负面指数与时间的关系散点图”，这个图形似乎呈倒U形，而不是线性关系。从图中可见，2014年12月~2015年初可能出现这个倒U形的拐点。因此，从图中可以做出假设，并非线性正相关，而是分段相关。结合获得的用户人数数据及散点图，以用户人数少于或大于200万(2015年初)把数据分为2个部分，第一部分35个月，第二部分33个月，合共68个月。假设在人数不同时可能出现不同的效应，通过斯皮尔曼相关分析，发现在注册用户人数少于200万的时期(2011年2月~2015年2月)里，用户人数与负面指数成显著反比(p=.000<.01，r=-.607**)；当注册用户人数大于200万时(2015年3月~2017年9月)，用户人数与负面指数成显著正比(p=.000<.01，r=.653**)。

结果证明网络外部性理论不是适用于所有情况，同时新命题也得以提出：当知乎社区人数大于某一数值时，反而可能有相反的效用，负面指数会随之上升，但两者不一定是线性相关关系。

四、网络外部性的构想：新概率模型

（一）“噪声”与知乎信息评分

知乎用户既是信息接收者也是信息生产者，而对接收信息和生产信息这两个过程同时进行动态测定难度过大。在实际使用中，用户大多数时间都是在进行阅读和接收信息，因此不妨将单个用户主要看作是接收端，产生效用的过程就是接收信息的过程。

在接受信息的传播学模型中，香农-韦弗模式中的“噪音”概念对于通信理论具有重要的借鉴意义。讯息可能受到噪音的干扰而产生某些衰减和失真，这是造成传播无效的重要原因。因此，对于知乎信息条目的分类可以借鉴香农理论中关于信息影响和干扰的相关讨论，对一个问题下的回答信息条目作出分类，分为“有效信息”和“噪声”。噪声这一概念可以从学理角度解释知乎遭到诟病的现象。

在实际操作中，为了辨别有效信息，需要制定统一的标准衡量每条答案质量。2017年11月王伟等人发表了题为《中文问答社区答案质量的评价研究——以知乎为例》的学术报告。该报告以“知乎”为研究对象，借助数据挖掘和机器学习的相关方法，分别建立了逻辑回归、支持向量机和随机森林三种答案质量评价分类模型，进行三层递进式训练和检验。该报告从结构化特征、文本特征以及用户社交属性三个维度构建答案质量的特征体系，并借助相关数理方法对这些评价分类模型进行检验，最终找出最适合的方案来作为知乎信息条目的客观评分手段。

根据该报告的研究成果，可以使用统一的评分标准来衡量“有效”信息。假设评分以10分为上限，则可设定某个固定分值，并规定在该分值以上为“有效”信息（例如设定5.0分为划分“有效”和“无效”的界限，分值大于5分则为“有效”信息，分值小于5分则为“无效”信息），不同的人设定的理想分值不同，则不同人口学变量（年龄、性别等类别特征）和对于知乎有不同期待的用户状况就可以按照这个界限划分来看出。用户对于有效信息出现频率的预期D1，就可以用以下公式来呈现：

那么，要保证用户对于这一时间段内使用知乎的体验是良好的，即能给出正面反馈，则要满足高质量答案出现的比例不小于用户期待中高质量答案的出现比例，也就是实际有效信息比大于等于用户接受度，即

因此，若想让特定用户对社区平台产生正面反馈，则在该社交平台所呈现给该用户的每M条信息中，至少应该出现N1条有效信息。从用户的角度来看，有效性接受度D1越大，对于信息质量的要求越高；反之则越低，因此D1值可以反应用户本身的状况。

（二）“黑箱”与数学概率模型

解决了接收用户的自变量，接下来需要解决的是知乎平台本身对于信息回答的分配机制。出于商业保护等原因，知乎本身的推荐内容机制不透明，封面内容的算法并未公开，所以无法通过知乎平台本身的内部算法去观测其运行原理和效果。但是，由于此网络平台本身的运行方案并不影响观察输入端信息生产和输出端信息接收之间的关系，因此通过外部观测，也可以分析该网络社区本身的其他用户与个体用户之间的关系。在此，可以通过控制论中的黑箱假设来将知乎平台看做一个黑箱，研究输入和输出的关系。

所谓“黑箱”，就是指那些既不能打开，又不能从外部直接观察其内部状态的系统。1948年，W.R.阿什比提出了黑箱概念，也就是维纳所说的封闭盒。“黑箱”研究方法的出发点在于：自然界中没有孤立的事物，任何事物间都是相互联系，相互作用的，所以即使不清楚“黑箱”的内部结构，仅通过它对于信息刺激作出如何的反应，注意到它的输入—输出关系，就可对它作出研究。如果我们能设计出一个系统，在同样的输入作用下，它的输出和所模拟对象的输出相同或相似，就可以确认实现了模拟的目标。在此，信息的输入，就是一个事物对黑箱施加影响；信息的输出，就是黑箱对其他的事物的反作用。

因此，研究知乎输入输出的关系，就可以研究输入点的状况和输出点的状况，从而对此关系进行探究。因此可以先将知乎对于平台已有信息向用户推送的机制看做一个均匀随机机制，以此来研究用户接收信息所反馈的正负向可能性。

对于输入端，由于知乎总用户量过于庞大，无法测定每个用户回答的质量，但是可以通过大数据采集到某个时间点内的回答数量及其评分。由于观测的是用户回答的总体情况，用户的个体人口学变量差异在本次研究中并不会起到过大的干扰作用，取而代之应该测定的是某个时间段内所有用户回答质量的平均水平，以集体差异代换个体差异。对此，可以采取模型法对于理想状态的用户平均回答水平进行计算。

以上是用户平均回答水平的情况。

由于信息是通过“黑箱”来随机分配，单个用户反馈的正负情况就是一个随机事件。对于随机事件的衡量，需要采用概率问题来解决，而这也符合信息论中不确定性与概率的关系。信息论中指出，对于一个消息，其中未知的成分越多，其有用性就越强。信息传送过程随机性的原因是，如果已经知道对方要告知的信息,就失去了传递信息的意义。所以传送的信息都是随机的，且一般都是随机信号，但信道一般会受到噪声影响，噪声一般是随时间变化的，所以在传输信息的过程中涉及随机过程。本文研究所提出的概率问题便基于此理论。

综上所述，可以得出用于建构平台效用与用户总量新关系数学模型的以下命题：一、单个用户效用高低可以通过测量单位时间内该用户产生正面反馈的可能性也就是概率高低来衡量。二、正面反馈的产生条件是实际有效信息比大于等于用户接受度。三、有效信息与噪声信息是通过平台“黑箱”随机发放的。四、“黑箱”发放的信息来源是每个用户按照其回答质量以固定（或者暂时固定）的信噪比投放的。上述四个命题可构建相关数学模型进行计算模拟。

五、数学模型的计算与模拟

根据上文中对于各个变量变化的分析，可以得出用户输入和输出的模式示意图如下：

事实上，知乎平台中信息的输入、输出过程是同时发生的，即在一段时间中，既有用户提出问题、回答问题，也有用户浏览问题、获取信息。因为我们感兴趣的问题是平台效用模型，因而为了抽象模型的建立，不妨认为信息的输入过程与输出过程独立进行，这样可以先完成信息的输入过程，使得平台中具有一定的信息量，之后再考虑信息的输出过程，从而研究用户在浏览平台中获得正面反馈的概率高低。

在实际的信息输入过程中，由于不同用户的知识储备、上网时长不同，导致其往平台中输入的信息量不同。但由于我们关注的是用户从平台获取信息的过程，而又将输入过程和输出过程进行了分离，故我们只需关注输出过程开始时，或输入过程完成时平台内的信息总量即可，即只需关注人均输入信息量，而不需要关注不同用户输入信息的差异性。

经过上面的讨论，首先给出以下模型变量：

下面对信息接收模型进行抽象处理，将社区平台看作黑箱，输入平台的信息看作放入黑箱的球，有效信息用红球表示，无效信息即噪声用白球表示。首先模拟信息的输入过程，让x个人往黑箱中放球，每个人固定向黑箱中投放a个红球（有效信息），b个白球（噪声）；接着进行用户信息获取过程，测试员蒙眼从黑箱中一次拿出m个球，为了满足测试员对获取信息的期待接受度，要求保证拿出的球中至少有n个红球；最后计算每次拿球符合接受度的事件概率y。根据前面的理论分析，首先可知：

m≥n

此外，由于此处平台中信息量远大于单个用户获取的信息量，故

m?xa

传媒推荐

@媒体人，新闻报道别任性
网站运营者这些"红线"不能踩！
一图纵览中国网络视听行业

人民日报报系

旗下网站

网络外部性在交互式问答社区的适用性研究

——以知乎效用问题为例

推荐阅读

传媒推荐

相关新闻

客户端下载

热门排行