最近,幾個新的社交軟件出現,那么,很多人使用中發現,哎呀,為什么我沒有把通訊錄上傳,他們仍然可以知道我的好友!甚至很多不再通訊錄上的微信好友,也被當作可能認識的人推薦給自己了!
一時各種猜測。
那么,首先,微信是不會透露任何關系鏈給第三方的。
分幾種情況吧。
第一,通過直接關系的通訊錄獲取
你沒有上傳通訊錄,但對方上傳了通訊錄,你在對方通訊錄里。
所以系統標記為,你們很可能認識。這個最容易理解。
第二,通過間接關系的通訊錄獲取
你和對方都沒上傳通訊錄,但存在第三個人上傳了通訊錄,并且同時包含你和對方。
比如說,A和B都沒有上傳通訊錄,但C上傳了,C的通訊錄里同時有A和B。
那這個是不是很扯啊,很可能八桿子打不著的關系對不對。
可是如果D上傳的通訊錄里也同時包含A和B,E上傳的通訊錄也是。
現在想想,如果設計一個閾值,存在多個人提交的通訊錄里同時包含了某兩個人,這兩個人可能認識的概率是不是就很大了?
再說,人家系統推薦寫的就是可能認識的人,就算不認識,用戶也不會多想的。
第三,通過轉發和訪問行為獲取
這是前幾天在朋友圈看到一個方案,是個圖片,追了一下水印,來自于微博的 "Barret李靖",是阿里的員工,但這個是不是原始出處我不清楚,如果還有其他出處煩請告知,方案一看就很靠譜,我用自己的理解描述一下。
你在頭條看到一篇文章覺得有意思,分享到微信,那么分享這個鏈接就帶了你頭條的用戶標記。微信上你的朋友打開這篇文章的時候,他可能也是頭條用戶,那么打開時頭條會獲取他之前訪問的cookie,這樣就知道他是誰,同時鏈接的參數也知道你是誰,那么頭條就認為你和他應該是可能認識的。
通過分享朋友圈的點擊瀏覽行為,基于分享者的URL特征和點擊者的Cookie信息,可以快速建立可能認識的人際關聯。
第四,抓取公開數據
比如微博,單向關注不能代表認識,但是如果是互相關注呢?那是不是彼此認識的概率就很高了?
而互相關注的數據是可以通過爬蟲抓下來的。
類似這樣的還有,比如QQ空間的評論,我記得是公開的吧,比如linkedin的社交關系。
還有歷史上一些同學錄產品,或者人才網站上的工作簡歷,如果你和某人同一時期在某個公司某個部門就職,或者某個學校某個專業就學,系統是不是認為你們或許可能認識。
很多產品要求你綁定微博啊,綁定微信啊,綁定QQ啊,綁定這個那個啊,然后他們通過公開數據的關聯關系,就把其他很多信息的關聯就建立起來了。
我記得前兩年有個讀者,基于公開數據來推斷我的好友信息,結果發給我了,怎么說呢,讓人有點害怕的那種。
第五,購買地下數據
應該是2013年吧,7000萬QQ群數據泄露,這個數據在地下市場一直有流轉,很容易得到。如果某兩個用戶同在一個群,也許無法得出他們的關系,但是如果同時在多個群呢?是不是認識的可能性會很高?
除了QQ群數據泄露外,還有哪些與社交有關的數據泄露呢?
開房數據泄露是不是也有很多起了,同一間房開房的除了情侶關系,同事關系也不少,畢竟很多小公司出差兩人一間也常見。家庭關系,很多家庭旅游為了省錢是不是也經常親戚擠在一間。旅游伙伴關系,此外還有商務會議接待,有時候也會把一些商業伙伴安排在一起。這是不是也都是社交關系。
其他的還有沒有?別問我,我不知道,但地下市場數據庫的強大經常是超乎想象的。
大部分會覺得,一個正規企業做事情不會用黑產數據吧,來,說個我知道的,前幾年小額貸,網上保險等行業,為了拓展業務買第三方線下數據還少么,第三方線下數據哪來的?哪個是干凈的?你真以為巨頭就不會買?
另外,巨頭找第三方做爬蟲抓競品數據的反正我知道有不少案例了。這是另一個話題了。
總之,互聯網無密可守,社交數據有很多種可能泄露,防不勝防,可能他們還有其他手段,我所能知道的可能也只是冰山一角。如果你不想與世隔絕,這事,就現實而言,也沒有更好的規避方法。