對于諸位「MLer」而言,梯度下降這個概念一定不陌生,然而從直觀上來看,梯度下降的復(fù)雜性無疑也會讓人「敬而遠(yuǎn)之」。本文作者 Suraj Bansal 通過對梯度下降背后的數(shù)學(xué)原理進行拆解,并配之以簡單的現(xiàn)實案例,以輕松而有趣的口吻帶大家深入了解梯度下降這一在機器學(xué)習(xí)領(lǐng)域至關(guān)重要的方法。
https://www.datadriveninvestor.com/2019/03/03/editors-pick-5-machine-learning-books/
權(quán)重向量存在于 x-y 平面中,將對應(yīng)每個權(quán)重的損失函數(shù)的梯度與學(xué)習(xí)率相乘,然后用向量減去二者的乘積。
想象自己站在函數(shù) f 以一定間隔排列的點(x0,y0…)之中。向量?f(x0,y0…)將識別出使 f函數(shù)值增加的最快行進方向。有趣的是,梯度矢量?f(x0,yo…)也垂直于函數(shù) f 的輪廓線!
下面的公式將 x 表示為輸入的訓(xùn)練數(shù)據(jù)(參數(shù)為單變量或單輸入變量),假設(shè)進行了監(jiān)督學(xué)習(xí),則 y 表示數(shù)據(jù)的標(biāo)簽。