商業和生活中,我們處處能夠看到數據挖掘的影子,Target 百貨分析16歲的少女買無香型沐浴露之后,判斷她懷孕了;語言學家通過記錄自己孩子出生到3歲每天每秒鐘的狀態數據,發現語言記憶和周遭環境相關性更大;調查局通過數據分析和挖掘發現改善公共環境有助于降低犯罪率。今天我們將從以下幾個方面來揭開數據挖掘的神秘面紗。
——導讀
數據挖掘涉及的學科?
首先我們可以看出,數據分析與挖掘位于中間,也就是紅點的位置,而旁邊有很多交叉的學科。
數據庫系統是現在比較普及的一種存儲數據信息的方式,也就是電子檔案的方式。統計學是一種傳統的數據分析方法,它的起源比較早。模式識別、機器學習和人工智能與數據挖掘的交集點不多。機器學習,它本身是我們人類在研究人工智能的一種分析方法,提出了一些計算機的算法,而這些算法是和數據分析、數據挖掘是有交集的,比如前段時間比較火熱的Alphago在人工神經網絡方面的成功應用,而這些算法目前也逐漸應用在了商業范圍內。
總體來說,數據分析與數據挖掘肯定是一門高度交叉的學科,而且包含的知識點,領域特別廣,是綜合社會科學和自然科學的一種交叉的一種學問。
數據挖掘的“道法術器”
▋1. 道以明向:建模流程、建模技術、業務場景的理解。
道,是放在最上層的東西,不管是什么學科,什么學問。而具體在數據挖掘領域,道著眼于對于整個數據挖掘的整套基本流程和建模技術、業務三者結合的深刻了解。需要大量的經驗積累形成自己的一套思路和方法。
▋2. 法以立本:數據挖掘的標準流程化的步驟。
目前比較成熟的數據挖掘標準化流程如KDD(Knowledge Discovery in Database),CRISP-DM。
▋3. 術以立策:數據挖掘的具體建模方法。
‖?描述性(無監督學習)
·用處:分析具有多個屬性的數據集,找出 潛在的模式,沒有因變量
·場景:觀察個體之間的相似程度,例如根據年齡、性別、收入等因素進行客戶細分;根據客戶對多個產品的購買,發現產品之間的相關性,做精準商品推薦。
·主要算法:聚類、關聯分析、因子分析、主成份分析、社交網絡分析、…
‖?預測性(有監督學習)
·用處:用一個或多個自變量預測因變量的值
·場景:客戶是否會違約是一個因變量,可以用客戶的性別、年齡、收入、職位、經濟狀況、歷史信 用狀況等因素進行預測
·主要算法:決策樹、線性回歸、Logistic回歸、支持向量機、神經網絡、判別分析、…
▋4. 器以成事:建模的具體工具。
傳統商業分析工具SAS,SPSS,開源類工具R,python,weka,Hadoop等。