
隨著技術的不斷普及,學者們對人們的行為研究也從線下開始走向線上。毫無疑問,他們的研究方法對于我們理解與研究用戶行為有極大的幫助。12月13日,普林斯頓大學的社會學家Matt Salganik出版了新書《Bit by Bit: Social Research in the Digital Age》,介紹了數據與社會科學研究的方法。《連線》雜志對Matt Salganik進行了專訪。
搞清楚人類是如何做人類的事情是社會科學(包括心理學、社會學、經濟學、人類學等等)能夠做到的最令人興奮的事情之一,同樣,這也是最難的一個。我們通常說,可靠、有意義的方法可以將現實世界的行為轉化為可以用來實驗的變量,但這是難以捉摸的。這可能是“再現性危機”的部分原因,即由于統計方法和研究方法上的壓力,一些科學研究有效性引起了人們的擔憂,這就是所謂的“軟科學”首先要解決但也是最困難的。
普林斯頓大學的社會學家Matt Salganik,正試圖解決這個難題。他想知道人類怎樣,以及為什么會做出一些行為,尤其是在一個由社會媒介構成的世界里。為了做到這一點,Salganik已經成為了一名硬核數據的癡迷者。他說,現在每個人在服務器上留下的數字痕跡,為人類行為科學研究提供了取之不盡的燃料,而且學會明智地使用它們也能解決社會科學目前在其自身實踐中遇到的各種危機。Salganik在12月3日發布的新書《Bit by Bit: Social Research in the Digital Age》中,為數據和社會科學的融合奠定了新的規則。
以下是《連線》雜志對Matt Salganik教授的專訪。
這本書有一個有趣的起源故事。
早前,我的一篇論文研究的是在線進行的實驗。我們創建了一個網站,讓人們可以下載新音樂,但我們可以控制人們能夠獲取的別人在做什么的信息。這讓我們有了一種能夠創造和測試社會風尚的能力。通過在網站上而不是在傳統的校園實驗室里進行實驗,我們獲得了27000名參與者,是后者情況下的100倍。
論文發表于2006年11月,從那以后,我一直在用數字時代的技術做研究,并把它教給學生。這本書是這段經歷的結果。我想幫助其他人開始做這樣的研究,并幫助那些已經在一個領域做這件事的人看到與其他領域的聯系。
當這本書進入傳統的同行評審時,它同時也在網上進行了一個公開審查。我把這本書變成了一系列的網站,任何人都可以過來閱讀并注釋它們。我能夠收集到大量的對這本書有幫助的反饋,同時,我也收集了大量有關人們如何與這本書互動的數據。我們也在使用一些大媒體和科技公司使用的所有大數據技術。現在我們發布了一個開放的評論工具包,其他作者也可以使用。
你通過公開評論獲得的反饋與更正式的同行評審有很大不同嗎?
我從同行評審中得到的反饋來自于一些專家,他們想法通常是,他們認為這本書應該如何寫。
哈哈。
不,有些是好主意。這很有用。我從公開評論中得到的反饋是不同的。他們并不是所有人都是專家,我希望我的書能讓非專業人士讀懂并為他們提供幫助。所以這對“診斷”書中的一些問題很有幫助。有一個關于我“跳過一個步驟”的注釋引發了爭論,我看著它,然后想,“哦,是的,我跳過了一步。”對同行的評審和我來說,這是顯而易見的一步,但對非專業人士來說,事實并非如此。
你認為誰能使用這本書?誰是讀者?
我希望讀者會很廣泛。比如正面臨著一系列問題的社會科學領域的人。比如數據科學領域的人。在大學之外,許多公司都有計算機科學、工程學、統計學等專業的數據科學家,他們也正在研究社會數據。他們本質上是社會科學家,但他們沒有受到過社會科學家方面的訓練。對于這些人,我希望這本書能向他們介紹一些社會科學的觀點,以及社會科學家的工作方式。我在微軟研究院休假,那里有一些非常不錯的工程師,但他們對社會科學不太了解。
在一些地方,你對數據科學家和社會科學家之間的差異提出了一些觀點。這些文化差異具體體現在在哪里?
我認為各個領域有很多東西可以互相學習,互相幫助。過去,社會科學家通常會研究專門為研究目的而創建的數據。在書中,我把這稱為“定制數據”。而數據科學家則傾向于使用“現成數據”,這些數據最初是為了某個目的而被用于研究。舉個例子,如果社會科學家想要研究公眾輿論,他們本能的第一個想法是看一份像GSS(美國綜合社會調查)這樣的調查,由研究人員為其他研究人員做的。但數據科學家不一樣,他們的第一站可能是Twitter。
其中一些差異來自于這些不同領域專家的價值取向。對于社會科學家來說,他們經常需要做的是能夠對一些更大的理論做出實證的陳述。對于數據科學家來說,更重要的是,用數據來做一些簡潔、有趣或新奇的事情。這些價值觀上的差異可能導致采取的方法不同。
此外,所受的訓練方面也存在差異。社會科學家在收集調查數據和如何分析數據方面受到了訓練;數據科學家通常沒有這種培訓,但他們接受過其他方面的培訓,比如如何使用非常大的數據集。因此,社會科學可以從數據科學家的技術和觀點中學到很多東西,同樣,數據科學家也可以從社會科學家那里學到很多東西。如果你想研究公眾輿論,那么說GSS比Twitter好是沒有意義的。你必須要問,哪個數據源對我們的問題最有用。
有一章特別吸引我的是道德問題。你寫道,社會科學家在面對看似棘手的官僚體制時,大多只考慮道德與倫理問題,而數據科學家根本就不考慮道德問題。
在與我交談過的研究人員中,沒有人愿意從事不道德的工作,但許多模擬時代的社會科學研究——校園實驗、調查研究、人種學研究——的倫理道德已經或多或少地得到了解決。一般來說,你能做什么和不能做什么是一致的。我認為,在利用大量數據開始研究之前,社會科學家們關于倫理道德的方式已經變得有些常規化了。
現在我們有可能做完全不同的事情。我們有能力在未經同意或不知情的情況下觀察數以百萬計的人,我們有能力在未經同意或不知情的情況下讓人們參與實驗,這些都是我們可以做的新事情,我不認為我們作為學者已經找到了如何負責任地使用這種權力的方法。在行業和政府中也出現了類似的問題。在數字時代,我們面臨的一個重大挑戰是,如何以一種負責任的方式利用這些機會。在這本書中,我試圖列出一些可以幫助人們思考和談論的原則。
尊重個人,善意,公正,法律和公共利益。
是的,這些想法并不是我創造出來的。我相信它們在未來可能會有用的一個原因是,它們一直存在。其中有一些原則是我從40多年前發表的《貝爾蒙特報》中得出的。采用以原則為基礎的方法而非規則為基礎方法的其中一個原因是,我們可以確信我們的能力將會發生改變。為了解釋這些新能力,我們需要有一些抽象的原則。
與人打交道最多的研究人員必須遵守的一個原則是知情同意,確保與你共事的人知道他們在做些什么。
這是我列出的四項原則的關鍵部分。這些都比單純的知情同意更廣泛。目前,我們非常重視知情同意,這顯然很重要,但我們可能會過分強調某一特定的事情,而忽視了更廣泛的尊重他人的理念,這是由知情同意的原則中衍生出來的。
有趣的是,你正在向社會科學家提出一種數據驅動的方法,而此時社會科學正在應對一場與數據有關的危機——再現性問題和統計操縱,這讓我們對該領域的一些關鍵研究結論產生了疑問。
我想說的是,從模擬時代到數字時代的轉變,正是推動大量新數據產生的因素,也使社會科學家有了新的工作實踐。它讓我們更容易地分享我們的數據和代碼,這讓我們更容易向所有人提供我們的研究,而不僅僅是那些有幸在大學里訂閱昂貴期刊的人。數字時代有可能幫助我們改變和改進我們的社會科學實踐,我認為人們會對此感到興奮并開始接受。
在向數字時代過渡的過程中,具體發生了哪些變化?
當我開始讀研究生時,研究人員所使用的數據通常是研究人員為研究人員創造的數據(比如大型的問卷調查數據)。這里面有一些好東西,因為這些數據通常和科學興趣有關。它通常對所有的研究人員開放,這很重要。
現在有很多數據都是日常行為的副產品。這被稱為是“數字追蹤數據”或“數字廢氣”。它的規模更大,創造了很多有趣的研究機會,但也帶來了一些問題。這些數據通常都有公司或政府的隱含意圖。這被稱為“算法混淆”。
這是什么意思?
從Facebook的數據中了解人類行為就像是在賭場里觀察人們的行為。你當然可以從賭場里的人那里學到東西,但賭場是一個高度工程化的環境,旨在鼓勵某些行為,并阻止其他行為。Facebook也類似。當人們看到Facebook時,他們會想,“哦,這是人們的自然行為。”但這根本不是事實。在許多情況下,系統設計師的目標并不是研究人員的目標。
然后是訪問權限。Facebook和Twitter擁有大量的數據,而這些數據對于每一位研究人員來說都是不可用的,這其中有很好的理由——復雜的倫理、法律和商業原因。但如果有一種情況,一些研究人員可以使用,而另一些人則沒有,這可能會引發對再現性的擔憂。
但社會科學不僅僅只局限于社交媒體。
我的兩個孩子,分別是8歲和4歲,正在和Alexa交談。他們將以一種不同于我的方式與世界互動。這些心理影響將需要一段時間才能觀察和理解,但我們已經開始看到行業和社會關系的重大變化。
在任何類型的交易記錄中,都有很多機會。Facebook和Twitter,其中很多都是人們有意創建的數據,但在更隱晦的數據中有很大的可能性。比如說,我的手機創建的位置數據。比特幣是另一個很好的例子。在經濟交易的過程中,這個分類帳就被創造出來了。我有一位同事正在為研究人員制作工具,以了解比特幣賬簿上的情況。
對于很多人來說,通過公司的平臺或分布式的點對點系統相互交流變得越來越容易。在某種程度上,所有這些交互都是通過數字媒介進行的,它們創造了記錄。這些記錄對研究人員來說都是非常令人興奮的。