大數(shù)據(jù)的時(shí)代我們?nèi)巳松硖幤渲校敲磳τ诖髷?shù)據(jù)的挖掘就是十分有價(jià)值的了,數(shù)據(jù)挖掘包括以下三點(diǎn):
之所以有這樣一個(gè)步驟,是因?yàn)橥ǔ5臄?shù)據(jù)挖掘需要涉及相對較大的數(shù)據(jù)量,這些數(shù)據(jù)可能來源不一導(dǎo)致格式不同,也許有的數(shù)據(jù)還存在一些缺失值或者無效值,如果不經(jīng)處理直接將這些'臟’數(shù)據(jù)放到我們的模型中去跑,非常容易導(dǎo)致模型計(jì)算的失敗或者可用性很差,所以數(shù)據(jù)預(yù)處理是我們所有數(shù)據(jù)挖掘過程中都不可或缺的一步。不客氣地講,預(yù)處理這一步通常占用了我們數(shù)據(jù)挖掘過程中的很大部分時(shí)間,但的確值得我們?nèi)プ觯P(guān)于它的詳細(xì)內(nèi)容我們在下面會(huì)講。
我們通常進(jìn)行的特征的構(gòu)造然后放到特定的模型中去計(jì)算,利用某種標(biāo)準(zhǔn)去評判不同模型或組合模型的表現(xiàn),最后確定一個(gè)最合適的模型用于我們的后處理。
相當(dāng)于我們已經(jīng)發(fā)現(xiàn)了那個(gè)我們想要找到的模式,我們會(huì)去應(yīng)用它或者用合適的方式將其表示出來。