人民網
人民網>>傳媒

大數據給我們帶來了哪些改變

2019年07月13日06:04 | 來源:光明日報
小字號
原標題:大數據給我們帶來了哪些改變

  陳國青 清華大學經濟管理學院EMC講席教授,學術委員會主任。2005年度受聘教育部長江學者特聘教授,擔任教育部高等學校管理科學與工程類專業教學指導委員會主任委員,國家信息化專家咨詢委員會成員,國際模糊系統學會(IFSA)副主席,中國信息經濟學會副理事長,中國系統工程學會副理事長等職。同時擔任國家自然科學基金委大數據重大研究計劃指導專家組組長,主持國家自然科學基金委重大項目等多個國家級科研項目,以及多個國際合作、企業信息戰略和管理項目。主要研究與教學領域為商務智能與電子商務、IT戰略與管理、模糊邏輯與數據模型。曾獲國際模糊系統協會2009年度“IFSA Fellow”﹔復旦管理學獎基金會2007年度“管理學杰出貢獻獎”﹔1999年度國家杰出青年科學基金等榮譽。

  7月9日,大學生們在安徽淮南市大數據展示中心參觀。新華社發

  參觀者在位於濟南市的山東省檔案館推出的山東省大數據科普主題展上體驗基於5G網絡傳輸的VR全息眼鏡。新華社發

  貴州銅仁市一家蔬菜公司的工作人員在管護蔬菜。通過大數據雲平台,蔬菜公司可以根據訂單來決定種植品種和規模。新華社發

  大數據時代的兩個階段

  我們現在處在一個數據的海洋當中。

  2019年的春運被媒體戲稱為“世界上最大的人口遷徙”,有30億人次流動。2018年“雙十一”網購達到了2135億元的銷售額度。現在,每天會產生450億的微信條目。用手機的網民已經達到8.17億。總體來說,我們國家的GDP數字經濟佔比已經達到了34.8%,超過了1/3,這方面實際能夠體現出,我們這個社會已經開始越來越數字化了。

  說起大數據、大數據時代,主要的時代背景是什麼呢?我們現實世界有多大程度上可以被數據表示?用一個形象的話來講,我們的社會像素正在急劇提升。這個“像素”來自到處可見的感測設備——探頭、智能手機、可穿戴設備、車載設備,林林總總。這些使我們這個社會的數字化程度越來越高,數據的粒度因此也越來越細。也就是說,數字化生活的兩個要素之一:像素、數據的粒度已經具備。像素夠高的時候我們要干什麼?形象地說就是“成像”,就像手機、相機,像素越高成像的質量可能越好,因此,成像是我們數字化生活中另外一個重要的要素,像素和成像對應起來,就把數據和算法聯系起來了。這就是我們所說的大數據的時代背景。

  我認為,大數據時代可以分成兩個階段。

  第一階段是數據商務階段。不斷地把現實生活中的要素,人財物,都進一步數據化,同時根據這些數據化的人財物進行算法的應用。

  第二階段是算法商務階段。當像素足夠高的時候,重點就變成了成像了,也就是說,重點變成算法應用。

  數據商務階段和算法商務階段都圍繞著數據和算法進行,但是重點有所不同。數據商務階段就像做菜一樣,數據化的過程就是不斷准備材料的過程,不停地增加和豐富材料,然后根據已有的材料提供不同的菜品。但是在算法商務階段,材料已經足夠豐富了,這個時候要比的就是手藝了,你是不是能夠做得更好、更多。這就是我們所說的算法進階及應用創新,如“智能+”,我們可以用更加高尖的智能技術,包括人工智能的很多技術,在現有的大規模數據下進行應用。

  大數據的數據特征

  那麼,什麼是大數據?首先看它的數據特征,可以從4個維度來理解,即4V:volume(規模)、variety(多樣)、value(價值)、velocity(速度)。大家對這四個維度沒有什麼大的爭議,但是對它們的含義的理解還是有相當不同的認識的。

  第一是規模,我們稱之為超規模。大數據規模會很大,但是沒有絕對的量綱標准,沒有說一定要達到多少G多少P多少Z才是大數據,這個不一定,因為大數據的大規模和問題、領域有關。隻要這個大的規模超出了這個領域和問題的傳統邊界,那就是大規模裡的超規模。

  第二是多樣,即富媒體的意思。現在80%∼90%的數據都是文本、語音、圖像、視頻,不再是特別傳統的二維的整齊的結構化的數據了。

  第三是價值。我們處在數據的海洋中,四周都是數據,但是跟我個人有關,跟我企業有關的那種有價值的信息相對少了,因為數據量的分母太大了,即密度在降低,這個后面直接的隱喻就是要深度挖掘才能發現我們希望的價值。

  第四是速度。數據就像開著的水龍頭一樣,源源不斷地出來,而不是我們上傳下載圖片要等很久。因此,大數據裡的數據是一個流數據的概念。

  大數據的問題特征

  那麼,什麼樣的問題才是大數據問題?這要看它的問題特征。

  第一個特征,是粒度縮放。粒度縮放是指我們碰到的這個問題的要素一定是數據化的,即這個要素不管是宏觀的還是微觀的,一定能通過數據表示。同時,可以像地圖一樣,可以在特別大的范圍和特別細的范圍之間縮放,能夠在宏觀、微觀之間進行映射。

  第二個特征,是大數據外部性導致的特征,稱之為跨界關聯。考慮問題的時候要看視角,問題邊界是在哪兒,如果考慮問題的時候這個邊界到了傳統邊界之外,就是跨界了,而且你把這個外部的要素和內部要素聯系起來了,所以你在關聯。

  第三個特征,全局視圖。大數據實際是希望了解全貌的,它最后是要看畫像,因為前面我的每一個點、每一個環節的數據叫作粒度縮放,同時和我相關的要素我又關聯了,但是我最后要干什麼,要了解全貌,要有個人畫像、企業畫像、政府畫像、社會畫像等,所以這個畫像本身又是全景式的,從范圍來講是全景式的,從內涵來講,我們希望既關聯又因果。

  這裡,我舉一個共享單車的例子,方便大家審視大數據問題的特點。有的人會認為共享單車其實就是我們的代步工具,但是這是傳統的概念。現在一般每輛共享單車都有自己的感應器和定位裝置,也就是說感測的數據粒度到了車和部件。這時候就不單是一個單車了,可能我走到什麼地方,共享單車的App就告訴我附近有什麼商圈、酒店、餐館,我在什麼地方買東西可能還可以用移動支付,當視角從單車走到了其他行業、要素時,就開始跨界關聯了。可能在這個地區人特別多,共享單車不夠,可能在另外的地方單車冗余了。因此,共享單車的平台應該清楚什麼地方需要車,什麼地方不需要車,怎樣調動,這就是全局視圖。當共享單車具備粒度縮放、跨界關聯和全局視圖時,共享單車的運營、優化,就是一個大數據問題。

  這些年來,社會上比較流行一個論斷,說“大數據隻講關聯不講因果”。這個論斷雖然有一定道理,但是總體來講是誤導的。特別是在重要決策的時候,如果涉及的后果可能會有嚴重的人財物的損失,然后我告訴你“你就這麼干吧,沒有為什麼”,誰敢作決策?所以,在大數據環境下作管理決策,既要看關聯也要看因果。另外,因果是認識論的基本訴求,我們要知道原因。

  大數據沖擊各行各業

  我們作為個人不僅是數據的接收者,也是數據的生產者。一方面我們下載、閱讀、瀏覽,因此我們在消費數據﹔另一方面,我們又上傳、撰寫、參加各種活動,各種活動就可以留下我們的很多痕跡,因此我們也在留痕,我們實際又在產生數據。在這樣一個既是消費又是生產的環境中,我們從方方面面已經和數據分不開了。

  大數據已經在沖擊各行各業。

  比如經濟金融領域。股價的預測其實一直是個難題,傳統的股價預測,實際是通過一些專業的模型來估計風險、收益、評價企業,有專門的理論和方法來估計股價。但是影響股價的除了這些因素之外還有人們的“期望”,而估計“期望”是非常難的,因為“期望”既涉及外部因素,又涉及心理預期。現在一個新視角是考慮公眾關注,比如搜索。若對某些企業比較關心,可能就搜索其企業狀況、新聞事件,這種搜索體現了大眾對具體企業的股票價格和價值走向的關心。這是一個跟過去特別不同的角度,因為這不是特別專業的角度,它是從專業外人士的行為來估計的角度。這種關注和搜索與股價的走勢有相當強的關聯度。但是,要特別指出,僅用這一個因素來估計股價是不夠的,還有大量的因素需要專業模型。因此,一方面能夠擴展或者沖擊傳統的定式和視角,另外應該把其他視角引入進來,大數據的股價預測應該是包括內部與外部、專業與非專業因素的模型構建。

  大數據也開始在改變會計學。傳統的會計學衡量企業的狀況是通過三張報表:資產負債表、現金流量表、利潤表,這三張報表反映了一個企業的運營能力、償債能力和盈利能力。雖然這三張報表是非常基礎和非常重要的,但是大家突然發現,有一大類企業是高風險的,特別是一些IT企業、創業企業、新行業企業,長期負債,但同時又有非常高的市值,人們又有非常強的忠誠度,如果用這三張報表衡量,似乎不能完全體現它的價值,也就是說,傳統會計學的三張報表現在可能就不夠用了。因此,人們正在呼喚“第四張報表”的出現,業界和學界都在做這方面的研究。長周期、高負債、高不確定性企業的價值可能受到的是口碑、忠誠度、品牌、公允價值,包括無形資產的影響。這些東西,我們可以稱之為數據資產。

  大數據也在為體育界帶來變革。籃球項目像美職籃NBA就做得非常好,他們通過收集肌肉、血液、心臟、動作、戰術、團隊等全景式的數據來幫助訓練和比賽,因為這些因素,都有可能影響整個比賽的結果。科技體育這幾年有巨大的空間,傳統的師傅帶徒弟,師傅的傳幫帶確實非常重要,但是應該有更細粒度,更加多角度、更加全景式的手段,採用大數據技術來提升整體的競賽水平。

  大數據在藝術上也有很多影響。傳統繪畫,不管是古典的還是現代的畫,都有自己的素材和表現形式。現在出現了一種新的素材——數據素材,也就有了新的表現形式。比如飛機航班的數據軌跡就可以構成一幅新穎的畫。

  大數據在其他領域也有非常多的應用,比如農業方面就有蔬菜革命、精准扶貧。在醫療健康領域,醫院內醫院外,得病和未得病之間的關聯,也是大數據問題。文學上通過大數據技術對一些詞語、作者、關系、背景等進行分析。這些都是利用大數據的例子。

  哲學裡一個重要的方向是認識論和方法論,這裡包括我們近些年提煉出來的新的研究成果。傳統的哲學認識論追求探索因果關系,因此基本叫作模型驅動范式,也就是說通過刻畫變量之間的聯系,比如自變量和因變量,通過構建這兩個之間的函數關系,比如線性、非線性等,可以知道一個自變量一個單位的變化會導致因變量有幾個單位的變化,這裡試圖反映變量之間的邏輯的因果上的機理。但是,這個模型驅動的范式,在大數據時代會受到一些挑戰,或者說它碰到一些問題時會捉襟見肘。比如,當數據變量的組合數特別多時,當很多變量是潛變量和隱變量時,當很多變量雖然重要,但是不可測不可獲時,還有當數據的樣本規模特別大時,這些問題用傳統的模型驅動做法就會比較困難。因此,就出現了一個新的范式轉變,催生了大數據驅動范式。這個范式想表達的是,對於管理決策,我們希望能夠實現既有關聯又有因果的訴求,這個新范式簡單地說由外部嵌入、技術增強和使能創新三方面構成。外部嵌入是指引入視角之外的變量,有些變量我們知道重要,但是沒有辦法放進模型裡,比如我知道股價,我預測股價有個計量模型,但是如果今天這個公司出了一件事情,或者是有個關聯新聞,或者行業裡有個新的政策,我們覺得可能會影響股價,但是這些變化很可能是視頻、語音或者文本,沒有辦法融入傳統的模型中去。所以,需要引入外部視角。這些圖像、視頻、新聞文本要引入進來,就是要使得我們引入的變量可測、可獲,這就需要技術上的增強。當這些變量引入進來的時候,我的變量空間就發生了變化,這時候我們可能會研究新的X到Y的轉換,也就是變量關系和映射要重新定義和審視,這就是使能創新。

  歷史學其實也和大數據密不可分。傳統的歷史記錄內容都是帝王將相、英雄豪杰、國家、政治、重大的軍事事件等,很難在歷史中看到平民和我們自己。一個是過去的粒度不夠,第二手段也不行,存不下來。大數據環境下就可能自下而上反映歷史。比如國家圖書館互聯網信息戰略保存項目,就是和新浪網合作,把新浪公開的相關博客文章作為歷史資料記錄下來,通過自上而下與自下而上的史學觀的融合,能夠讓我們在更細粒度上反映歷史和社會,同時也可以獲得更加全面的歷史畫面。

  法律也和大數據相關。比如說,我作為一個消費者,在網上購物、瀏覽,我的網絡痕跡、數據腳印都被相關公司採集了,那麼,我有沒有權利要求你把我的這些痕跡抹掉、遺忘掉?這就是“被遺忘權”。所謂被遺忘權是指數據主體有權要求數據控制者永久刪除有關數據主體的個人數據,有權被互聯網遺忘,除非數據的保留有合法的理由。2018年歐盟出台了《通用數據保護條例》,強調了被遺忘權,我們國家2018年的高考II卷一篇閱讀文章的題目,也是要考生來思考、評論這個被遺忘權的問題。

  大數據與人工智能的交會

  大數據的沖擊力量現在看來還在加劇,其中有一個力量非常值得關注,那就是人工智能。

  當人工智能遇到大數據的時候,現在井噴式的發展才變成了可能。其實人工智能是現在這個時代中很多技術的一類,它本身已經發展了好幾十年,但是為什麼在近些年才得到快速發展?其實人工智能技術和這幾個關鍵詞有關,那就是“學習、訓練、推理、演化、智能、智慧”,也就是說,它是關於這些關鍵詞的一類技術。特別重要的一點,它要根據大量的數據來進行學習和預測,就是從數據中學習,建立模型,並用於預測未來。過去數據的粒度不夠,進入大數據時代,當數據有足夠的粒度和像素時它才成為可能,因為人工智能的主流技術首先是要基於大規模數據進行學習。其次,人工智能算法本身需要非常強的計算能力,隻有在大數據時代,有了雲計算平台、數據傳輸、數據的流通、數據的管理,諸如5G技術等,才能為人工智能的發展提供非常好的支持。我們身邊其實已經有很多人工智能產品了,比如工業機器人、財務機器人、下棋機器人、能做詩作畫作曲的機器人等,這些機器人可以做很多我們過去認為不可能的事情。

  人工智能在未來會波濤洶涌,一浪高過一浪地發展。但是它本身也有局限,目前的人工智能技術特別是深度神經網絡這樣的技術,基本上屬於“黑盒子”技術,可以算得非常准,但是“為什麼”還說不大清楚。在這種情況下,在一些重要的應用領域就受到局限,因為如果不知道“為什麼”就不敢用這個方法作重要決策,如果不能通過非常清楚的機理來說明,實際它未來的應用也是有局限的。現在,業界和學界都在攻關“可解釋人工智能”,實際就是人工智能在輸入和輸出之間,在數據和預測的結果之間,從數學上來講需要一點定理,一些形式化的機理。從認識論上來講需要一些因果關系。

  不管怎麼說,人工智能的應用已經深刻地影響到我們了。作為人類,我們自己創造了一個“亞種”叫作機器人。機器人的行為是不是都在我們人類的設想之中呢?會不會干一些我們想不到的事情呢?似乎這個擔憂是必要的。所以機器行為學應運而生。傳統社會學、管理學、經濟學、心理學等都是研究人、由人構成的組織的行為,由人形成的網絡的行為。隨著各式各樣的機器人越來越多地替代人的工作,越來越多地挑戰人們在智力、計算上的能力,這樣的研究是非常必要的。所以,我們要研究機器如何塑造人類的行為,人類如何塑造機器的行為,以及人機協作的行為。

  運用大數據要重視商業倫理

  在實際中,大數據的使用本身仍有很多令人擔憂之處。雖然科技發展飛速,但是人們使用科技是帶有價值取向的。

  比如“大數據殺熟”。在傳統的營銷、管理中,我們都希望了解客戶的行為,更好地為他們服務。在市場的環境下我們也說,既然有人願意用高價買,那就可能要給他提供更好的服務。但是在大數據環境下,這種處理就有一個度的問題。第一是客戶是否知道他的信息被收集,第二是他是否願意真的出高價買。作為企業來講,又需要有經營哲學上的思考:企業是以盈利為中心,還是以客戶為中心?當以客戶為中心時,客戶滿意與否就變成了主要的KPI,就是主要的決策考量,如果光考慮企業的盈利,而不考慮客戶,可能就不太會考慮用戶的感受。實際上,“大數據殺熟”涉及的是商業倫理層面的問題。

  在大數據時代我們跟數據打交道會碰到一系列社會問題、法律問題、道德問題,需要在企業層面、商業層面,在社會和政府層面立法立規,在個人層面、在道德的層面大家來共同努力解決這些問題。

  感測和響應大數據時代

  過去的20年我們經歷了特別大的技術變化。20年前,中國網民是62萬,互聯網普及率隻有0.03%,網站1000多家。現在中國網民有8.29億,互聯網普及率達到59.6%,網站523萬個,上網時間每天人均4小時。

  時代的變化太快,我們應該敏銳地主動地感測和了解這個變化,同時不管是企業還是個人,要作出自己的准備和自己的響應,因為大數據作為一個時代會伴隨我們相當長的時間。在未來的某一天,可能由大數據衍生出一個新的概念、一個新的內涵、一類新的技術,可能會變成一個新時代的符號。

(責編:宋心蕊、趙光霞)

分享讓更多人看到

傳媒推薦
  • @媒體人,新聞報道別任性
  • 網站運營者 這些"紅線"不能踩!
  • 一圖縱覽中國網絡視聽行業
返回頂部