一般來說無論是數據分析還是數據挖掘,可用的方法有很多,而數據分析師常用的數據挖掘方法包括:預測模型方法、數據分割方法、關聯分析法和偏離分析法。接下來小編帶你深入了解下這些數據挖掘方法:
預測模型方法是數據挖掘主要方法中分支較為復雜的一類,包括神經網絡與決策樹等相關人工智能算法、進化算法及支持向量機等算法。
數據分割是將數據依據某些屬性將其聚類,使之具有一定的意義。由于數據的類型、數據的復雜度和聚類的數目等特點,聚類算法有很多,如劃分方法、基于網絡的方法、基于密度的方法、層次方法等。
關聯分析法是尋找數據間的關聯,但從大數據集中尋找關聯可能會導致效率降低,找到的關聯也可能毫無意義。在研究過程中存在“支持度”和“置信度”,“支持度”可以有根據地將那些毫無意義的數據刪除,而“置信度”可以衡量設置規則的可能性。關聯分析法的主要算法有Apriori算法、DHP算法和DIC算法等。
偏差包括潛在的信息量,例如設定模式中的特例、分類中的異樣實例以及分析實驗得到的最終結果與實驗前設定的期望之間的偏差等。觀察比較最終的結果與參照量之間的偏差是偏離分析法的核心所在。
在企業的預警或是危機解決的過程中,專業的管理者對突發的意外規則更感興趣,在異常信息的發現、識別、觀察、分析、挖掘、評價和預警等方面,挖掘意外規則的應用價值備受關注。