人民網>>傳媒>>傳媒專題>>傳媒期刊秀:《傳媒》>>2014年9月上

電影研究中如何應用大數據【2】

王知凡

2014年11月26日16:31    來源:傳媒    手機看新聞

電影大數據研究的特點

所有的大數據研究都面臨相似的問題,由於各院線、電影發行公司、票務公司等天然存在的壁壘,無法進行用戶資料的共享。目前,電影大數據研究的數據來源隻能全部依賴於互聯網的公開數據。

維克托·邁爾•舍恩伯格教授在《大數據時代》中提到,互聯網大數據的特點除了數據量外,還有“允許不精確”性,數據量的大幅增加會讓一些錯誤的數據混進數據庫,淹沒不同個體中的一些細節區別,但廣泛且高頻率的數據會讓人觀察到很多本可能被錯過的變化,了解事物大致的發展趨勢。在大數據研究中,我們追求的是整體趨勢的准確,而不是細節的精確。

並且,大數據的使用可以進一步優化現有的計算機學習算法,舍恩伯格教授提出:“當數據隻有500萬的時候,有一種簡單的算法表現得很差,但當數據達到10億的時候,它變成了表現最好的,准確率從原來的75%提高到了95%以上。”顯然大數據的簡單算法比小數據的復雜算法更有效。

下文中,筆者介紹的電影大數據研究的一些常用方法,均是基於以上兩個特點,與傳統研究思路相比,也許在群體劃分、概念定義和模型設計等領域顯得有些“粗糙”,但當數據量放大到一定程度時,這些數據仍然是有意義的。當然,雖然是大數據研究,如何優化算法、提高數據的精確性依然是所有研究者未來長期努力的方向。

電影大數據能做什麼

票房預測。2012年底上映的《人再囧途之泰囧》以不超過8000萬元的投資換回了12.6億元的票房收入,讓業界很多人大跌眼鏡。2014年,前期宣傳營銷一直是熱點的《小時代3》在上映半個月后票房被同檔期的《后會無期》反超。對於電影行業來說,票房預測向來是研究者們前仆后繼最希望努力攻克的難關。從大數據研究方法誕生之始,就為票房預測領域帶來了令人驚喜的途徑。

2010年,惠普實驗室通過分析Twitter數據進行電影票房預測,他們根據用戶在Twitter上的電影討論數量、態度和電影上映屏幕數等指標建立了線性回歸模型(Linear Regression Model)。同一年,還有國內公司通過尋找電影導演、演員陣容、上映檔期等因素對票房的影響規律,從而對電影票房進行預測。

2013年,谷歌(Google)發布了白皮書《Quantifying Movie Magic with Google Search》,公布了其設計的電影票房預測模型,谷歌認為電影相關的搜索量與票房收入之間存在很強的正相關,於是谷歌採用以下四類指標同樣構建了線性回歸模型:一是(電影放映前一周的)電影搜索量,二是(電影放映前一周的)電影廣告的點擊量,三是上映影院數量,四是同系列電影前幾部的票房表現。根據這一模型,谷歌認為他們可以提前一周預測電影票房,並且准確率是92%。

為了更好地指導電影前期的營銷開展,接下來谷歌又構建了一個可以提前一個月預測電影票房的模型,指標變化的關鍵是將“電影的搜索量”改成了“電影預告片的搜索量”。調整后的模型所需的指標為:電影預告片的搜索量,同系列電影前幾部的票房表現,檔期的季節性特征。只是由於谷歌並沒有根據這個模型發布電影票房預測結果,模型的實用價值還有待檢驗。

2014年,搜狗公司對谷歌的預測模型進行了優化,用於預測國內電影票房。這一模型依然是基於“電影搜索量與票房收入之間存在正相關”這一規律上的。考慮到用戶搜索電影名稱時,可能會有同名但非電影的搜索結果混入數據中(如《生化危機》既是一部電影,也是一款游戲),搜狗在模型中引入了查詢量的變化趨勢和用戶點擊的分布情況,即通過用戶點擊的URL(統一資源定位器)來進一步確認用戶的搜索意圖。

同時,社交媒體上“粉絲”對電影的搜索、轉發、評論等相關數據,以及垂直媒體中有關電影的宣傳效果(如預告片點擊量)也被引入模型,對結果進行修正。在實際的票房預測中,除了前面這些一般因素外,搜狗認為還需要考慮以下特征對結果的影響:檔期的電影競爭情況、電影類型、電影產地、是否3D、預告片搜索量。

電影票房預測方法的發展至今依然處於探索階段,目前還沒有一家機構可以憑借大數據十分准確地預測出票房變化。這是因為影響票房的因素十分多元化,而且各家機構常用的線性回歸模型本身也具有局限性。除了一些可以用數據體現或可以轉化成數據的指標,如導演、主演、電影類型、電影產地、制片方、發行方、電影及預告片搜索量、排片場次、社交媒體提及率、社交媒體提及態度、網絡新聞數量等,還有一些無法量化的指標也可以影響到預測的成敗,如電影中某一劇情元素與當下社會心理的契合度。

如果綜合考慮這些影響因素,票房預測就遠非一個簡單的線性模型就能解釋,而更應近似於一種變化的曲線。

電影觀眾分析。當然,電影票房預測只是對互聯網大數據最初步的嘗試應用。近年來,隨著國內各種社交媒體的興起,很多公司也在嘗試運用社交媒體數據解釋更多的事情,如電影觀眾背景、觀眾對影片的評價態度及品牌關注等。

根據2014年7月CNNIC《第34次中國互聯網絡發展狀況統計報告》顯示,我國微博用戶規模為2.8億。雖然近兩年微博用戶一直呈下降趨勢,但上億的用戶規模依然成為很多公司實踐大數據的理想場地。

第一,微博所要求的實名注冊制度,可以讓數據分析公司容易獲得用戶的性別、年齡、所在地、教育程度、職業性質等信息。第二,微博的“標簽”功能,通過用戶為自己定義並標注的“標簽”,可以讓計算機採集到用戶的愛好、性格、特點。第三,通過編寫特定的“爬虫”程序,對所有用戶發布的微博和評論內容進行關鍵詞篩選和抓取,可以明確劃定某一部電影、影星等的“粉絲”范圍和“粉絲”態度。第四,將以上這些信息進行不同組合的交叉分析,就可以得到研究所需的各類結果。

例如,要研究《分手大師》的票房是否沾了同檔期《變形金剛4》的光,我們首先需要定義出兩部電影的觀眾群體,即在微博中提到“分手大師”或“變形金剛4”名字的用戶,我們默認其為潛在的觀眾﹔再“爬取”這些觀眾的背景信息,檢驗這兩部影片觀眾的性別、年齡比例或性格、愛好標簽等是否有差異。如果兩者的差異足以將這兩部影片的觀眾定義成兩個群體,那麼我們就可以判定,並不是像有些人預測的那樣,《變形金剛4》將大量觀眾吸引到電影院,結果買不到《變形金剛4》票的觀眾退而求其次才看的《分手大師》,而是《分手大師》有其特定的“粉絲”群體。

此外,植入式廣告作為現今流行的一種廣告形式越來越受到廣告品牌商的青睞。《變形金剛4》裡植入了大量的品牌形象,微博關鍵詞的分析則可以從一個角度驗証植入式廣告的傳播效果。我們可以將植入式廣告的傳播效果分為兩個維度:一是影片的觀眾是否是該品牌的目標受眾,二是植入式廣告是否引起了影片觀眾的關注。

對於第一個維度,在定義影片觀眾群體后,檢索這一群體在影片上映前曾經發布過的所有微博內容,分析這些內容中是否提到過該品牌和該品牌提到的比例。如果出現比例極低或者從沒出現過,則可以判斷影片的觀眾並不是這一品牌的目標受眾。對於第二個維度,則是檢索影片觀眾在電影上映后發布的所有微博內容,分析這些內容中是否提到過該品牌和該品牌提到的比例,則可以驗証該植入式廣告的受關注度。

電影口碑分析。除了微博,一些專業電影網站和論壇數據也可以用來進行大數據分析,如時光網、豆瓣等。這些網站為每一部影片都開設了專門的討論區和評分榜,可以更有針對性地分析影片評價和觀眾態度。

例如,想要知道觀眾對《富春山居圖》的評價態度,隻需對時光網或豆瓣中影片討論區的所有內容進行分詞,再利用現有成熟的語義詞庫,將這些詞一一進行比對,劃分出褒義詞、貶義詞、中性詞的比例,則可以從一個大的趨勢上看出觀眾對這部影片的態度傾向。

又如,通過大數據來分析是什麼元素吸引了觀眾對《后會無期》的關注。將互聯網上所有關於該影片的評論分詞后再進行聚類,看哪些關鍵詞出現的頻率最高。如果評論中出現頻率最高的關鍵詞是“韓寒”,我們可以推論出是影片編輯兼導演的個人名氣為影片票房和口碑帶來了巨大的影響。

除了分析電影口碑的內容,輿論的傳播路徑對電影營銷也具有重要意義。研究在一個或幾個社交媒體之間,一個帖子的內容被誰看到、被誰轉發傳播、傳播了多少人,可以幫助電影營銷更有針對性。計算機通過追蹤每一條信息的傳播路徑,可以輕鬆找到誰是信息傳播鏈條中引發傳播量爆發式增長的關鍵用戶,以及該用戶的影響力。如果是有利於影片營銷的正面性內容,營銷者可以通過與關鍵用戶合作,提升傳播效率﹔如果面對的是負面輿論,也可以精確地知道將信息攔截在哪個關鍵點,以便更好地進行危機公關。(作者系北京數邦偉業信息科技有限公司副總經理)

上一頁
分享到:
(責編:謝琳(實習生)、宋心蕊)




注冊/登錄
發言請遵守新聞跟帖服務協議   

使用其他賬號登錄: 新浪微博帳號登錄 QQ帳號登錄 人人帳號登錄 百度帳號登錄 豆瓣帳號登錄 天涯帳號登錄 淘寶帳號登錄 MSN帳號登錄 同步:分享到人民微博  

社區登錄
用戶名: 立即注冊
密  碼: 找回密碼
  
  • 最新評論
  • 熱門評論
查看全部留言

24小時排行 | 新聞頻道留言熱帖