电影大数据研究的特点
所有的大数据研究都面临相似的问题,由于各院线、电影发行公司、票务公司等天然存在的壁垒,无法进行用户资料的共享。目前,电影大数据研究的数据来源只能全部依赖于互联网的公开数据。
维克托·迈尔?舍恩伯格教授在《大数据时代》中提到,互联网大数据的特点除了数据量外,还有“允许不精确”性,数据量的大幅增加会让一些错误的数据混进数据库,淹没不同个体中的一些细节区别,但广泛且高频率的数据会让人观察到很多本可能被错过的变化,了解事物大致的发展趋势。在大数据研究中,我们追求的是整体趋势的准确,而不是细节的精确。
并且,大数据的使用可以进一步优化现有的计算机学习算法,舍恩伯格教授提出:“当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达到10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。”显然大数据的简单算法比小数据的复杂算法更有效。
下文中,笔者介绍的电影大数据研究的一些常用方法,均是基于以上两个特点,与传统研究思路相比,也许在群体划分、概念定义和模型设计等领域显得有些“粗糙”,但当数据量放大到一定程度时,这些数据仍然是有意义的。当然,虽然是大数据研究,如何优化算法、提高数据的精确性依然是所有研究者未来长期努力的方向。
电影大数据能做什么
票房预测。2012年底上映的《人再囧途之泰囧》以不超过8000万元的投资换回了12.6亿元的票房收入,让业界很多人大跌眼镜。2014年,前期宣传营销一直是热点的《小时代3》在上映半个月后票房被同档期的《后会无期》反超。对于电影行业来说,票房预测向来是研究者们前仆后继最希望努力攻克的难关。从大数据研究方法诞生之始,就为票房预测领域带来了令人惊喜的途径。
2010年,惠普实验室通过分析Twitter数据进行电影票房预测,他们根据用户在Twitter上的电影讨论数量、态度和电影上映屏幕数等指标建立了线性回归模型(Linear Regression Model)。同一年,还有国内公司通过寻找电影导演、演员阵容、上映档期等因素对票房的影响规律,从而对电影票房进行预测。
2013年,谷歌(Google)发布了白皮书《Quantifying Movie Magic with Google Search》,公布了其设计的电影票房预测模型,谷歌认为电影相关的搜索量与票房收入之间存在很强的正相关,于是谷歌采用以下四类指标同样构建了线性回归模型:一是(电影放映前一周的)电影搜索量,二是(电影放映前一周的)电影广告的点击量,三是上映影院数量,四是同系列电影前几部的票房表现。根据这一模型,谷歌认为他们可以提前一周预测电影票房,并且准确率是92%。
为了更好地指导电影前期的营销开展,接下来谷歌又构建了一个可以提前一个月预测电影票房的模型,指标变化的关键是将“电影的搜索量”改成了“电影预告片的搜索量”。调整后的模型所需的指标为:电影预告片的搜索量,同系列电影前几部的票房表现,档期的季节性特征。只是由于谷歌并没有根据这个模型发布电影票房预测结果,模型的实用价值还有待检验。
2014年,搜狗公司对谷歌的预测模型进行了优化,用于预测国内电影票房。这一模型依然是基于“电影搜索量与票房收入之间存在正相关”这一规律上的。考虑到用户搜索电影名称时,可能会有同名但非电影的搜索结果混入数据中(如《生化危机》既是一部电影,也是一款游戏),搜狗在模型中引入了查询量的变化趋势和用户点击的分布情况,即通过用户点击的URL(统一资源定位器)来进一步确认用户的搜索意图。
同时,社交媒体上“粉丝”对电影的搜索、转发、评论等相关数据,以及垂直媒体中有关电影的宣传效果(如预告片点击量)也被引入模型,对结果进行修正。在实际的票房预测中,除了前面这些一般因素外,搜狗认为还需要考虑以下特征对结果的影响:档期的电影竞争情况、电影类型、电影产地、是否3D、预告片搜索量。
电影票房预测方法的发展至今依然处于探索阶段,目前还没有一家机构可以凭借大数据十分准确地预测出票房变化。这是因为影响票房的因素十分多元化,而且各家机构常用的线性回归模型本身也具有局限性。除了一些可以用数据体现或可以转化成数据的指标,如导演、主演、电影类型、电影产地、制片方、发行方、电影及预告片搜索量、排片场次、社交媒体提及率、社交媒体提及态度、网络新闻数量等,还有一些无法量化的指标也可以影响到预测的成败,如电影中某一剧情元素与当下社会心理的契合度。
如果综合考虑这些影响因素,票房预测就远非一个简单的线性模型就能解释,而更应近似于一种变化的曲线。
电影观众分析。当然,电影票房预测只是对互联网大数据最初步的尝试应用。近年来,随着国内各种社交媒体的兴起,很多公司也在尝试运用社交媒体数据解释更多的事情,如电影观众背景、观众对影片的评价态度及品牌关注等。
根据2014年7月CNNIC《第34次中国互联网络发展状况统计报告》显示,我国微博用户规模为2.8亿。虽然近两年微博用户一直呈下降趋势,但上亿的用户规模依然成为很多公司实践大数据的理想场地。
第一,微博所要求的实名注册制度,可以让数据分析公司容易获得用户的性别、年龄、所在地、教育程度、职业性质等信息。第二,微博的“标签”功能,通过用户为自己定义并标注的“标签”,可以让计算机采集到用户的爱好、性格、特点。第三,通过编写特定的“爬虫”程序,对所有用户发布的微博和评论内容进行关键词筛选和抓取,可以明确划定某一部电影、影星等的“粉丝”范围和“粉丝”态度。第四,将以上这些信息进行不同组合的交叉分析,就可以得到研究所需的各类结果。
例如,要研究《分手大师》的票房是否沾了同档期《变形金刚4》的光,我们首先需要定义出两部电影的观众群体,即在微博中提到“分手大师”或“变形金刚4”名字的用户,我们默认其为潜在的观众;再“爬取”这些观众的背景信息,检验这两部影片观众的性别、年龄比例或性格、爱好标签等是否有差异。如果两者的差异足以将这两部影片的观众定义成两个群体,那么我们就可以判定,并不是像有些人预测的那样,《变形金刚4》将大量观众吸引到电影院,结果买不到《变形金刚4》票的观众退而求其次才看的《分手大师》,而是《分手大师》有其特定的“粉丝”群体。
此外,植入式广告作为现今流行的一种广告形式越来越受到广告品牌商的青睐。《变形金刚4》里植入了大量的品牌形象,微博关键词的分析则可以从一个角度验证植入式广告的传播效果。我们可以将植入式广告的传播效果分为两个维度:一是影片的观众是否是该品牌的目标受众,二是植入式广告是否引起了影片观众的关注。
对于第一个维度,在定义影片观众群体后,检索这一群体在影片上映前曾经发布过的所有微博内容,分析这些内容中是否提到过该品牌和该品牌提到的比例。如果出现比例极低或者从没出现过,则可以判断影片的观众并不是这一品牌的目标受众。对于第二个维度,则是检索影片观众在电影上映后发布的所有微博内容,分析这些内容中是否提到过该品牌和该品牌提到的比例,则可以验证该植入式广告的受关注度。
电影口碑分析。除了微博,一些专业电影网站和论坛数据也可以用来进行大数据分析,如时光网、豆瓣等。这些网站为每一部影片都开设了专门的讨论区和评分榜,可以更有针对性地分析影片评价和观众态度。
例如,想要知道观众对《富春山居图》的评价态度,只需对时光网或豆瓣中影片讨论区的所有内容进行分词,再利用现有成熟的语义词库,将这些词一一进行比对,划分出褒义词、贬义词、中性词的比例,则可以从一个大的趋势上看出观众对这部影片的态度倾向。
又如,通过大数据来分析是什么元素吸引了观众对《后会无期》的关注。将互联网上所有关于该影片的评论分词后再进行聚类,看哪些关键词出现的频率最高。如果评论中出现频率最高的关键词是“韩寒”,我们可以推论出是影片编辑兼导演的个人名气为影片票房和口碑带来了巨大的影响。
除了分析电影口碑的内容,舆论的传播路径对电影营销也具有重要意义。研究在一个或几个社交媒体之间,一个帖子的内容被谁看到、被谁转发传播、传播了多少人,可以帮助电影营销更有针对性。计算机通过追踪每一条信息的传播路径,可以轻松找到谁是信息传播链条中引发传播量爆发式增长的关键用户,以及该用户的影响力。如果是有利于影片营销的正面性内容,营销者可以通过与关键用户合作,提升传播效率;如果面对的是负面舆论,也可以精确地知道将信息拦截在哪个关键点,以便更好地进行危机公关。(作者系北京数邦伟业信息科技有限公司副总经理)
上一页 |