最近以來,對於“大數據”的崇拜,來勢洶洶,甚囂塵上。

但是,崇拜者和鼓吹者,多少也應該有一點做研究的起碼常識吧?

無論在自然科學裏,還是社會科學裏,還是文本分析中,凡是進行數據分析,只有兩種辦法:

第一種方法是:研究者自己首先提出某個或者某些假設,然後去收集數據,然後進行統計檢驗,以便對於自己的假設做出適當的評價,主要結論應該是:該假設是否得以成立。也就是說,“沒有假設,就沒有研究”或者“好的假設就是成功的一半”。這,對於任何一種遵循“科學主義”的研究來說,不但是金科玉律,而且根本就是不可突破的底線啊。

可是,所謂的“大數據”,在收集數據之前,可曾有過任何一個假設嗎?甚至,研究者究竟有沒有猜測到:那些數據之間,可能存在著某種聯系呢?例如,如果您把人們在網上購物時留下的痕跡,與他們在醫院就診時留下的記錄,強行放在同一個數據庫進行分析;那麽,您就等於在假設:購物與生病之間,可能存在著某種聯系。這並不是說,根本不可以提出這個假設,而是說,您事先是這麽想的嗎?如果沒有,那麽跟盲人摸象有什麽區別呢?

尤其是,無論您從這樣的“大數據”中分析出什麽,都只能是誤人子弟。例如,早在上個世紀,美國的統計學家就發現,股市的漲落,與女人裙子的長短,存在著相關關系。可是一直以來,在任何一個國外大學裏,這都被用來說明“無假設,不統計”這一常識。可是現在卻又被某些人翻出來,作為“大數據之所以偉大”的證據啦。

我的一位學生說得好:“這和去垃圾堆裏翻安全套,本質上一致吧?”我再引申一下:沒有假設,大數據就是垃圾堆!

如此下去,科學還有存身之地嗎?

第二種研究方法,是從定性研究(質性研究)裏的“求異法”借鑒來的,就是:不去尋找數據的“規律性”,而是通過分析,去發現“特定事物(現象)內部的多樣化的存在”,或者“同一事物(現象)在不同載體中的多樣化存在”。也就是說,研究者的假設是:任何事物(現象)都不可能是渾然一體,必定存在著萬紫千紅甚至千奇百怪的存在形式。研究者的目標,就是去發現和揭示這一點。因此,研究者全神貫註的,恰恰是數據中那些小概率的、奇異的、甚至缺失的情況。

 正是在這個意義上,而且僅僅在這個意義上,大數據才會有用。例如,哪怕只有萬分之一的人,確實是在網上購物之後才有病,或者有病之後才上網購物;那麽也可以提示我們:為什麽僅僅是這些人才會出現這樣的聯系呢?其中是不是蘊含著我們現在還不知道的某種學理呢?

所以說:這種“沙裏澄金”的研究方法,主要是為了“發現”,而不是為了“檢驗”。但是只有這種方法,才能實現理論的獨辟蹊徑,而不僅僅是既有成果的“層層疊加”。

可是,我真的很好奇:那些“大數據崇拜者”,聽說過這樣的“論方法”嗎?

什麽叫“大”?

數據,早已有之;因此“大數據”的買點,其實僅僅在於一個“大”字。

鼓吹者們都在拼命宣揚:我們收集了多少多少人的,多少多少次的,多少多少種的記錄,因此,只有我們的數據才是“大”數據!

可是,我就奇怪啦,大數據怎麽看起來像是打群架,人多為王?

其實,如果我在自己的電腦上,安裝上足夠多的各種儀器,記錄下從鼠標軌跡到上網痕跡直到我的表情動作的自拍;那麽只需要一天,我所收集到的、僅僅關於我一個人用電腦的數據,也肯定是成千上萬個G,足以成為貨真價實的“大數據”。

如果我再給自己身上安上一大堆醫學監測儀器,給自己的書房安上360度攝像頭、溫度計、紅外線掃描甚至“地動儀”,而且24小時開動;那麽您說,我這一個人的數據會有多大?

也就是說,數據大不大,根本不在於記錄了多少人或者多少次或者多少種行為,而僅僅在於:監測手段用得多不多!

因此,現在之所以出現“大數據崇拜”,其實根本不是那些數據擁有者有什麽高明之處,而是僅僅在於:人類的監測手段出現了爆炸式的增長。我們不但看到了火星上的水,還看到了我們自己的DNA!

當然,大數據崇拜者可以說:我們意識到了大量的監測數據的價值啊。可惜,如我前文所述,如果您都不知道該怎麽用,那麽您發現的,究竟是大數據的價值,還是大垃圾的價值?就算是廢物可以再生,您也應該想想該怎麽再生不是?

“大數據崇拜”裏面,還有一個大大的貓膩,是死也不肯讓別人知道的:大,是整體的大,還是片面的大?

以購物網站記錄下來的數據為例,它確實可以容納數千萬人在購物時不知不覺地留下的近乎無窮無盡的痕跡;但是,這就能反映出這些人的購物偏愛嗎?難道這些人就再也不在實體商店中買東西了嗎?難道他們就只到您這一個購物網站來買東西嗎?難道他們的偏愛就永恒不變嗎?那麽,您怎麽能夠確定:他們在不同的渠道中,在不同的情境之中,都會做出一模一樣的選擇呢?可是,如果您無法證明這一點,那麽您的大數據就只能是大垃圾,一點兒也不冤。

交通監控錄像、醫療記錄、通訊記錄等等,都足以號稱自己是“大數據”。可是,所有這些數據,都僅僅是記錄下了人們生活中的一個個零散的側面。因此,這樣的“大數據”再怎麽大,也無法解決以下一系列常識性的問題:

1.人在生活的某個側面裏的表現,與他/她的整個人格與人生,難道不存在緊密的關聯嗎?農民工吃20元的盒飯都嫌貴;富豪買上千萬的汽車也不眨眼;這難道僅僅是所謂的“消費選擇”嗎?

2.人類生活的各個側面之間,難道不是相互影響著的嗎?農民工吃20元的盒飯,卻可以搭上200元的禮錢;富豪買上千萬的汽車,卻不肯做一點兒慈善;這也僅僅是所謂“購買習慣”嗎?

3.任何一個人的生活,難道不是被社會、文化、歷史等因素制約著嗎?吃20元盒飯的,也有IT業白領,也是來自農村,卻從來不被認為是農民工。比爾·蓋茨的形象中,也從來不包括他的汽車是多少錢買來的;這,難道也是“可付資金”嗎?

4.……

5.……

所以說,所謂的大數據,其實一點都沒有超出原有的定量研究的局限性,那就是:裁剪生活,撕碎人生;非要把整體生存的“人”,視為一堆雜亂的零碎。如此這般,數據越大,豈不是錯誤越大?

當然啦,大數據崇拜者已經說了:我們很快就可以把方方面面的大數據,匯總為一個包羅萬象的大“大數據”,例如全方位、不間斷地監測所有人,就足以最終一勞永逸地解決那個“天問”:人類為什麽做什麽和不做什麽。

額滴親娘啊,這可真是道出了“司馬昭之心”啦!

“大數據崇拜”唯一的功勞,其實就是迫使我們不得不認真思考一下:

在這種隨時隨地的、天羅地網般的、細致入微的、一生一世的被監測中,

我們的生活,真的還有意義嗎?

能說明什麽?

盲目崇拜或者大肆鼓吹所謂“大數據”的那些人,或者不知道,或者刻意回避了一個根本的問題:無論數據的規模多麽大,它究竟能夠反映出什麽樣的情況,能說明什麽樣的問題呢?

迄今為止,“大數據崇拜者”所列舉的“豐功偉績”,其實僅僅局限於反映出人類的某些可監測而且可記錄的行為,例如各種網上活動、出行、通訊、接受各種服務等等。也就是說,如果人們不行動,或者不被監測到,那麽大數據就不可能存在。

可是,就算毫無隱私,就算監測可以天羅地網,那人心呢?靈魂呢?企盼呢?人類精神家園一切的一切,都可以被“數字化測定”嗎?如果至少現在還不能,那麽大數據(且不論能不能分析)就是動物學,是植物學,甚至是礦物學。君不見,冰川也會運動啊。

當然,一些科學主義者早就發誓要突破人類精神的壁壘了。我並不懷疑他們的成功可能性;只想問:他們究竟是終於把人類精神給數字化了,還是給靈魂豎起一面哈哈鏡呢?

“大數據崇拜者”很可能不知道,或者不敢承認:在人類生活中還有一種現象,叫做“主體建構”;就是:人們對於自己的行為所做出的解釋,很可能與監測者的解釋大相徑庭,甚至背道而馳。最常見的就是,一切人際的誤會,蓋源於此。“無心插柳柳成蔭”也是如此。

以網購的“大數據”為例,即使您總有一天可以把購買者的內心,全都數字化地一覽無余,那您怎麽知道人家就真的就是這樣想的呢?科學嘛,總是需要驗證的啊。

結果,

首先,您這種“客觀測定”,離礦物學很近,可是人卻是有主觀意志的啊,您是怎麽監測到的?連物理學還有個“測不準原理”呢,何況您老?

第二,您知道人類還會“自我呈現”嗎?說不好聽一些,就是表演。如果連測謊儀的結果,法律都還不予采信,那麽您怎麽篩除被監測對象的表演呢?

第三,難道您就不找被監測對象去核實一下?連司法審判還要聽被告怎麽說呢不是?難道真的把人當成石頭?

第四,您聽說過弗洛伊德嗎?您知道除了“動機”,還有“無意識”嗎?如果行為者自己都搞不清楚自己是怎麽回事,那麽您還怎麽去核實呢?根據什麽來判斷真偽呢?

總而言之,一切試圖用自然科學或者數字化來了解人類及其社會的嘗試,不是都必然失敗,而是都無法否定人類的“主體建構”的重要性;結果都必然是把真實的生活給削足適履了。

說到底,“大數據崇拜”,其實就是“唯科學主義”在人類歷史面前一敗塗地後的末日哀鳴。如果科學沒能阻止希特勒的統治,也沒能預測出此後人類的一切發展,那麽就絕不是“藝不精”的問題,而是用錯了地方,是越界跑到了自己無能為力的領域。

中國社會學,已經飽受“唯量化主義”的侵蝕,如果現在還放任“大數據崇拜”肆虐,那麽可就真是泥菩薩過河自身難保了。

因此,我才如此聲色俱厲,也因為我本人已經完成第四次全國隨機抽樣的量化問卷調查,深諳其弊,才更加有資格如此義憤填膺。(愛思想網站 2015-10-19)

Views: 83

Comment

You need to be a member of Iconada.tv 愛墾 網 to add comments!

Join Iconada.tv 愛墾 網

愛墾網 是文化創意人的窩;自2009年7月以來,一直在挺文化創意人和他們的創作、珍藏。As home to the cultural creative community, iconada.tv supports creators since July, 2009.

Videos

  • Add Videos
  • View All