歡迎光臨
每天分享高質量文章

你天天看手機,手機也在看你

這裡有一份節目預告:

十一長假開始了

不管你是宅在家裡

奔波於旅遊景點之間

還是很苦逼地攤在加班的地鐵上

你或許都需要讀點什麼


大資料(ID:hzdashuju)在長假期間

將推送6篇入門級科普,包括:

量子計算機 | 自動駕駛 | 資料與隱私

黃金比例 | AI與就業 | 資料科學職業

另外還為既聰明又努力的孩子們

準備了一份充電書單

等你來圍觀!

今天是我們一起充電的第1天

導讀:“當你看著因特網夠久時,因特網也會回看向你。”——改編自弗裡德里克·尼采的名言,原文出自於尼采發表於1888年的著作《超越善惡》。

你在用計算機、手機或信用卡做的每一件事所產生的與你有關的資料幾乎都被仔細地收集、分析,並且永遠地儲存了起來,這些資訊往往被賣給了你對其一無所知的機構。

在網上,我們進行搜尋,購物,並且透過電影和電視節目進行娛樂。我們用郵件和簡訊,以及偶爾的語音電話與朋友及家人聯絡。利用Facebook與朋友及熟人保持聯絡,透過領英獲得可能的工作連線,也許還會用約會網站尋求愛戀。我們閱讀部落格與推特的推送以及線上新聞來瞭解周邊的世界。我們在網上管理自己的錢財以及進行支付。

我們長期帶著手機活動,而手機一直知道我們的確切位置。

作者:布萊恩·柯尼漢

本文摘編自《普林斯頓計算機公開課》,如需轉載請聯絡我們

01 社交網路

事實上,社交網路的使用者自願的提供了大量的個人隱私以換取娛樂以及與其他人保持聯絡。

幾年前,我看到過有著類似內容的網帖,“在求職面試時,他們問我了一些個人簡歷以外的內容。他們在瀏覽我的Facebook主頁,這簡直駭人聽聞!Facebook上展示的是我的私生活,這和他們一點關係都沒有。

發表這樣的言論表現出一種令人痛心的幼稚和無辜,但是很多Facebook使用者都會有相同的震驚感,即使眾所周知僱主和大學招生辦公室會定期透過搜尋引擎、社交網站和類似資源來更好的瞭解他們的申請者。

在美國,詢問求職者的年齡、人種、宗教、性取向、婚姻狀態和很多其他的個人資訊都是違法的,但是在社交網路上搜索這些,一切都在不聲不響中變的觸手可得。

幾乎從定義上來說,社交網路站點都是觸及隱私問題的,因為他們蒐集來很多有關使用者的資訊,並且透過向廣告商出售這些資訊獲利。在短時間內這些網站誕生了,並戲劇化地壯大。

Facebook創於2004年,目前號稱月活躍使用者超過17億,這超過了20%的世界人口。社交網路使用者的增長趨勢如此之快,相關政策沒有時間餘地來仔細斟酌字句,旺盛的計算機系統也沒有餘裕進行悠閑地發展。

這導致的結果就是,每個社交網路站點都遇到了洩露隱私資訊的問題,這往往是由於網站的一些欠考慮的特徵,以及由於頻繁更改的隱私設定和整個程式固有的軟體錯誤與資料洩漏,引起使用者混淆所致。

作為規模最大也最成功的一個社交網路,Facebook出現的問題是最明顯的。一些問題的產生是由於Facebook為第三方提供了API,這些API用於編寫Facebook使用者在Facebook體系內使用的一些應用,這些軟體會以違反官方隱私政策的方式洩露隱私資訊。當然,這些問題也不是Facebook所獨有的。

地理位置服務在手機顯示上顯示使用者的位置,這樣就比較容易和朋友私下見面,在玩基於地理定位的遊戲也更加方便。如果知道潛在顧客的實際位置,定向投放廣告的效果更加顯著;當你正站在一家餐館門口時,相比你在報紙上看到該餐館的廣告,你對這家餐館的廣告作出回應的可能性更大。

在另一方面,當你意識到你的手機被用於跟蹤你,即使你在商店裡也不例外時,你也會覺得這個世界是如此恐怖吧。不僅如此,商店正開始使用店內信標。如果你選擇加入系統,通常下載一個特定的應用,就代表你預設許可店家的跟蹤。

信標透過藍芽和你手機上的應用通訊,監控你在店內的位置,併在你看起來對某些特定商品有興趣時向你推送優惠資訊。取用一個製作信標系統的公司的話,“信標正引領一場室內營銷革命。”

位置隱私指個人將所在位置資訊作為個人隱私的權利。事實上,位置隱私受到諸如信用卡、高速公路上的收費系統和公共交通系統,當然還有手機的危害。想要避免留下你曾經到過哪些地方的蹤跡越來越難了。

在這方面,手機應用是最嚴重的“侵權者”,經常申請獲得手機上你的幾乎所有資訊,包括通話資料,物理位置,等等。然而,一個手電筒app真的需要我的位置,聯絡人和通話記錄嗎?

在很長一段時間裡,情報機構都以擅長透過分析通訊物件獲取大量資訊而為人所知。在這個過程中,他們甚至不需要知道雙方交談了什麼。這也是為什麼美國國家安全域性一直在收集美國境內撥出所有電話的元資料,這些資料包括電話號碼,何時撥出及通話時長。

最初的資訊收集是作為2001年9月11日世貿中心恐怖襲擊的應對措施獲得授權的,然而直到2013年透過斯諾登的檔案揭露之前,沒有人意識到資訊收集的範圍是如此之廣。

即使說接受了這個事實,並且聲稱“這隻是元資料,不是對話內容”,元資料暴露的內容可能異常的多。在2013年10月的參議院司法委員會聽證會的證詞,Ed Felten給出了幾個假設的情景,在這些情景中,元資料可以使私人故事完全公開:

親密關係中的兩個人常常在深夜打電話。如果這些電話不再頻繁,甚至不再互相聯絡,那麼這兩個人的關係可能已經結束了。當一段新的關係開始時,元資料同樣可以告訴我們。換句話說,一年聯絡一次的朋友肯定不如每週都聯絡的朋友來得那麼親密。

想想下麵這個假設的例子:一個年輕的女人和她的婦科醫生打了電話,然後立刻給她的母親打了電話。之後她給一個男性打了電話,在過去的幾個月,她經常在晚上11點之後和這個男性透過電話聯絡,接著她給一個提供流產手術的計劃生育中心打了電話。如果僅僅透過檢驗單一的電話通話記錄,類似的故事線不會這麼顯而易見。

同樣的,雖然元資料顯示給賭註服務處打一個電話可能意味著監視標的準備下註,對於長期通話記錄元資料進行分析則可能提示標的有著賭博問題,尤其是當通話記錄顯示了一些與發行日貸款服務的通話。

如果一個政府僱員突然和與新聞機構聯絡在一起的一些電話號碼聯絡,接著就聯絡ACLU(美國公民自由聯盟),然後是刑事辯護律師,那麼這個人的身份可以推斷為新聞機構潛在的線人或告密者。

社交網路中的顯性和隱性連線也是如此。當人們明確地提供連結時,在人們之間建立聯絡要容易得多。例如,Facebook的“喜歡”,可以用來準確預測性別、種族背景、性取向和政治傾向等特徵,對於這些特徵的推斷可以透過社交網路使用者免費提供的資訊進行。

Facebook,Twitter、領英和其他網路的點贊按鈕,使得跟蹤和關聯更加容易。看上去僅僅是頁面上出現的社交標誌,它實際上是一個可見而非隱藏的廣告形象,用於確認你在看這個頁面,它給了供應商一個傳送cookie的機會。如果單擊它,這將會發回有關你的偏好的資訊。

即使不是這些網站使用者的個人資訊也會透過社交網路和其他站點洩露。例如我收到了來自非常要好朋友的一份電子派對邀請“e-vite”,即使說我沒有回應這份邀請,也沒有許可他們使用我的地址,經營邀請業務的公司透過這個方法即可得到確認屬於我的電子郵箱地址。

如果我的朋友在Facebook照片中標記了我,我的隱私也在未經許可的情況下受到了侵犯。Facebook提供的人臉識別功能,這讓朋友們可以更方便地互相標記,同時其初始設定允許在未經被標記者許可的情況下進行。

這意味著,有著較大使用人群的系統都可以輕易地繪製出該使用者的社交影象,透過影象展示直接使用者之間的互動,同時可以包括那些在未經允許,甚至不知情的情況下間接地被介紹進來的人。在以上這些情形中,個人無法提前避免情況的發生了,也很難將已有的資訊移除。

我不使用Facebook,因此當我發現我“有”一個Facebook主頁時非常驚訝。顯然,這個主頁是根據維基百科頁面自動生成的。

請仔細想想你如何向這個世界介紹你自己。在發郵件,網貼或是發推之前,請暫停一下,問自己,如果你的陳述句或是影象出現在《紐約時報》頭版或是成為電視新聞中的主題故事時,你是否會感到任何不適。你的郵件,發出的簡訊和推特都很可能被永久儲存在網路上,甚至可能在數年之後重新出現在一些令人尷尬的內容裡。

02 資料挖掘與聚合

因特網和全球資訊網已經徹底改變了人們收集、儲存和展現資訊的方式。搜尋引擎和資料庫對每個人都具有不可估量的價值。很難想象之前沒有因特網的時代我們是怎麼過來的。海量的資料(“大資料”)為語音識別、語言翻譯、信用卡防偽檢測、推薦系統、實時交通訊息,以及很多其他的無價服務提供了大量原材料。 

對於網上資料的增生也有利弊兩面,尤其是那些可能會過多暴露我們的資訊如果傳出去,會令人相當不自在。 

有些資訊明顯就是公開的,還有些資訊收集起來就是為了供人搜尋和索引的。如果我寫了一個網頁,希望大家都能看到,假設就是這本書的頁面吧,那麼我肯定願意人們透過搜尋引擎可以輕易發現它。 

那怎麼看待公共檔案呢?法律上,某些資訊屬於任何人透過申請都可以查閱的。在美國,公共檔案包括可以公開的庭審記錄、抵押檔案、房價、地方房產稅、出生和死亡記錄、結婚證、政治捐助,等等。(查閱出生記錄通常是為了知道“媽媽婚前的姓氏”,以便輔助確認一個人的身份。)

很早以前,要知道這些資訊必須不辭勞苦,親自前往當地政府駐地查閱。因此,雖然這些檔案名義上是“公開”的,但不付出點代價也不可能看到。誰要想獲得這些資料,就得親自跑一趟,或許需要出示身份證件,要想複製一份可能還得花點錢。

今天,如果這些資料上了網,我坐在自己家裡就可以輕輕鬆松查閱這些公共檔案。我甚至可以開個公司,收集彙總這些資訊,然後與其他資訊整合起來。

比如很多人都知道的zillow.com,就整合了地圖、房地產廣告、有關財產和交易的公開資料,透過地圖來直觀地顯示房價。如果你想買賣房屋,這是有價值的服務,否則可能會被視為侵擾。透過查詢聯邦選舉委員會(Federal Election Commission,簡稱 FEC)的選舉捐款資料庫(fec.gov),可以知道哪位候選人得到哪些朋友和要人的捐贈,或許可以查到他們的家庭住址等資訊。

在FEC提供資訊的基礎上,fundrace.huffingtonpost.com在一張地圖上給我們標出了這些人的名字、地址、職業。這種做法擊中了公眾知情權和個人隱私權之間來之不易的平衡。 

什麼樣的資訊才應該讓人如此輕而易舉地得到?這個問題很難回答。政治捐款應該公開,但門牌號碼可能就應該稍加隱藏。包含美國社會保險號等個人身份識別資訊的公共檔案似乎不該放在網上,因為這就給盜用別人身份開啟了方便之門。

逮捕記錄和照片有時會公佈,有些網站會發表這些資訊,他們的商業樣式就是個人為其付款才能從網站上撤下照片!可當前的法律無法完全阻止這種資訊的公佈,而這種資訊一旦上網,就覆水難收了。歐盟的“遺忘權利”法律可以使這些資訊難以尋找,但該法律仍然是不完美的工具。

隨著在多個各不相關的來源都能查到同一類資訊,這個問題就變得愈發嚴重了。比如,很多提供Web服務的公司都有大量的客戶資訊。搜尋引擎會記錄所有查詢,也包括查詢人的許多資訊。最低限度也會記錄查詢人的IP地址,還有使用者之前訪問過網站時儲存在計算機上的cookie 。 

2006年8月, AOL出於好意而公開了一大批查詢日誌樣本,供人研究。這些日誌涉及三個多月以來65萬使用者的2000萬查詢,已經做了匿名處理,因此從理論上講,不存在任何可以用於辨識個人身份的資訊。

儘管是善意之舉,但人們也很快就發現這些日誌在實踐中不會像AOL想象的那樣做到完全匿名。每個使用者在查詢時都會被賦予一個隨機但唯一的識別符號,有了這個識別符號,就很容易知道同一個人都查詢過什麼內容。進而,確定一些人的身份也就成為可能。

因為不少人都搜尋過自己名字、地址、社會保險號以及其他個人資訊,透過搜尋相關性分析暴露出來的資訊比AOL認為的多,也肯定比原始使用者自己想到的多得多。AOL很快從自己網站上刪除了這些日誌,當然為時已晚。這些資料早已傳遍世界各地了。 

查詢日誌對經營企業和改進服務有價值,但很明顯其中可能包含敏感的個人資訊。搜尋引擎應該把查詢日誌保留多長時間?這裡有個矛盾:考慮個人隱私則保留的時間應該短,而考慮執法目的則保留的時間應該長。

為了達到一定的匿名程度,這些公司內部該對資料進行怎樣的處理?雖然他們全都聲稱會刪除每條查詢對應的部分IP地址資訊(一般是最右邊的位元組),但僅僅如此似乎還不夠,還達不到反識別使用者的目的。

政府機關查詢這些資訊的許可權有多大?打一次官司會查詢多少資訊?所有這些問題都沒有明確的答案。AOL公佈的查詢日誌中有些是很嚇人的,比如有人查詢怎麼殺死自己的配偶。因此,有限度地向司法機關開放這些資料是合理的,但問題是這個限度應該放多大,很難說清楚。 

AOL事件揭示了一個廣泛存在的問題,即真正做到資料匿名化是非常困難的。刪除身份識別資訊可以降低識別度,單就特定的資料而言,確實無法定位到使用者,因此可以說它是無害的。但現實當中資訊的來源是多方面的,把多個來源的資訊組合起來則很可能挖掘出更多身份特徵。而且某些來源的資訊甚至連提供者自己都不知道,這些資訊將來也未必還能找得到。 

有關這種再識別問題,下麵可以給大家講一個真實的案例。1997年,當時在MIT讀博士的拉坦婭·斯威尼分析了馬薩諸塞州135000名僱員的體檢記錄,這些記錄都做了反識別處理。資料來源是該州的保險委員會,可用於研究目的,甚至被賣給了私人公司。每條體檢記錄中除了大量其他資訊外,都包括生日、性別和郵政編碼。

斯威尼發現有6個人的生日都是1945年7月31日,其中3個男性,而只有1人住在坎布里奇。把這些資訊和公開的選民登記名單一對照,她便知道了這個人就是時任州長威廉·韋爾德。

他們瞭解的不夠多,所以沒有人可以發現這些秘密,這種想法很誘人。然而,很可能敵人掌握的資訊之多已經超出了你想象,即使他們現在還不知道那麼多資訊,將來也有可能知道。

關於作者:布萊恩 W.柯尼漢,世界頂尖電腦科學家,普林斯頓大學教授,曾任職於貝爾實驗室電腦科學研究中心。他與C語言之父Dennis Ritchie共同撰寫的《C程式設計語言》是程式語言書籍中的典範,對世界各地的程式員產生了深遠的影響。


本文摘編自《普林斯頓計算機公開課》,經出版方授權釋出。

延伸閱讀《普林斯頓計算機公開課

點選上圖瞭解及購買

轉載請聯絡微信:togo-maruko


推薦語:智慧新時代不可不知的計算常識!人人都能讀懂的數字生活必修課!


更多精彩


在公眾號後臺對話方塊輸入以下關鍵詞

檢視更多優質內容!


PPT | 報告 | 讀書 | 書單

Python | 機器學習 | 深度學習 | 神經網路

區塊鏈 | 揭秘 | 乾貨 | 數學

猜你想看

Q: 還敢在社交網路中表達真實的自己嗎

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯絡:baiyu@hzbook.com

更多精彩,請在後臺點選“歷史文章”檢視

點選閱讀原文,瞭解更多

贊(0)

分享創造快樂