“ 學(xué)習(xí)大模型技術(shù)是有方法的,千萬不要只知道埋頭工作 ”
學(xué)習(xí)人工智能技術(shù)也有一段時間了,雖然說也算不上什么成果,但對人工智能技術(shù)也算有了一個初步的認識,以及一些個人的學(xué)習(xí)過程與心得。
而今天就來簡單介紹一下個人學(xué)習(xí)人工智能技術(shù)的一些書籍,網(wǎng)站和心得;因為人工智能技術(shù)有不同的實現(xiàn)方式,所以今天所說的人工智能特指大模型技術(shù)。
大模型技術(shù)學(xué)習(xí)
先來思考一個問題,應(yīng)該怎么學(xué)習(xí)大模型技術(shù)?
首先從個人的經(jīng)驗來說,學(xué)習(xí)大模型技術(shù)或者說學(xué)習(xí)任何一門新的技能,首先就是要理解它的基本概念,比如什么是大模型,它能干什么,然后該怎么用,最好自己動手嘗試一下。
然后第二步也是比較重要的一步,也是很多人鉆牛角尖的一步;第二步就是在了解基本概念的基礎(chǔ)之上,盡快找一個機會去使用這項技術(shù),而不是鉆進新技術(shù)的理論中。
因為現(xiàn)實中很多人學(xué)習(xí)新技術(shù)的時候,都喜歡研究它的理論,而不注重實操,包括作者自己之前也是這種情況。
很多時候就是,感覺懂了好多理論,別人問起來也能和人家吹的天花亂墜,好像自己很懂。但事實上,這時對技術(shù)的理解只是停留在表面,對很多技術(shù)細節(jié)和實現(xiàn)理念都沒有一個深入的理解。
也就是說,這時我們所謂的很懂其實很空洞,除了吹牛逼之外啥都干不了。
因此,最好的方式就不要沉迷于理論,盡快參與實踐;這時,可能會因為對理論不理解,你會踩很多坑,很多東西都不知道為什么,這時你會覺得很困難。
但只要你能堅持下去,慢慢你就會在實踐中發(fā)現(xiàn)很多問題,包括一些之前先想不明白卻豁然開朗的問題和一些之前覺得理所當然,但現(xiàn)在卻認為不合理的問題。
而這時,你就會對整個大模型技術(shù)有了更加深刻的理解,這時再回頭看一些理論你就會看到不一樣的東西。
這也就是政治課上常說的,理論與實踐相結(jié)合,用實踐去驗證理論,用理論去指導(dǎo)實踐。
再有,學(xué)習(xí)一項新技術(shù),個人認為應(yīng)該從以下三個角度出發(fā):
應(yīng)用
理論
技術(shù)
上面這個順序并不是亂排的,而是有原因的,首先第一點就是應(yīng)用;任何技術(shù)剛開始肯定要從應(yīng)用開始,原因就是你需要對它有一個具象化的了解,而不是只看一些抽象的理論。
從應(yīng)用開始,你就能知道它是個什么,能做到什么以及能用來解決什么問題;然后,你就會思考它為什么會這么做,解決了什么問題,以及怎么解決的,為什么會選擇這種方案,有沒有其它解決方案等等。
而這些問題就存在于其理論之中,這個理論不僅僅只是技術(shù)理論,還包括其設(shè)計理念,解決方案等。
而有了基礎(chǔ)理論之后,還需要具體落實,比如說通過愛因斯坦的相對論,那怎么證明相對論,這就需要具體的技術(shù)實現(xiàn)。
還拿大模型來說,大模型的基礎(chǔ)理論是深度學(xué)習(xí),但怎么實現(xiàn)深度學(xué)習(xí)?通過神經(jīng)網(wǎng)絡(luò),那神經(jīng)網(wǎng)絡(luò)模型應(yīng)該是什么樣的?又該怎么實現(xiàn)?
所以就有了正向傳播,反向傳播,損失計算等等具體技術(shù)的出現(xiàn);這也是為什么,正反向傳播和損失計算的方式都不止一種。
所以,從應(yīng)用開始對技術(shù)有個基礎(chǔ)的印象,其次通過理論去深化對技術(shù)的理解,最后通過具體的技術(shù)來實現(xiàn)理論。
下面就是個人經(jīng)常看的書籍,以及網(wǎng)站:
大模型應(yīng)用開發(fā)極簡入門,這是作者剛開始學(xué)習(xí)大模型技術(shù)購買的書籍,從目錄結(jié)構(gòu)上看,它從大模型的基礎(chǔ)理論,chatGPT的基本操作以及其接口開發(fā),還包括模型的微調(diào)和Langchain這種大模型應(yīng)用開發(fā)框架的使用。
對剛?cè)腴T想學(xué)習(xí)人工智能技術(shù)的人來說,這是一個不錯的選擇,但有一個硬性條件就是,要有一點編程的基礎(chǔ),什么語言不重要,重要的是要有編程的思想。
從零開始大模型開發(fā)與微調(diào),是基于pytorch開發(fā)的清華大學(xué)開源的chatGLM模型為基礎(chǔ),完整介紹了實現(xiàn)一個大模型所需要的技術(shù),如編/解碼器,Transformer架構(gòu),數(shù)據(jù)處理,強化學(xué)習(xí)等等。當然這本書也需要一定的技術(shù)基礎(chǔ),否則大概率看不懂。
機器學(xué)習(xí)——周志華版,是一本關(guān)于機器學(xué)習(xí)的書籍;機器學(xué)習(xí)是深度學(xué)習(xí)的前身,在大模型爆火之前,機器學(xué)習(xí)才是主要的研究方向。而這邊機器學(xué)習(xí)書中介紹了多種機器學(xué)習(xí)的算法,如支持向量機,決策樹,神經(jīng)網(wǎng)絡(luò),監(jiān)督學(xué)習(xí),強化學(xué)習(xí)等,里面詳細介紹了各種算法的實現(xiàn)原理。
多模態(tài)大模型算法,應(yīng)用與微調(diào)——劉兆峰,這本書是一本更加偏向于理論方面的書籍,里面詳細介紹了Transformer模型架構(gòu),GPT系列,以及深度生成模型等;而且還有一部分文本生成,圖像生成和代碼生成的案例,詳細介紹了不同類型大模型的實現(xiàn)原理。
多模態(tài)大模型技術(shù)原理與實戰(zhàn),可以說是一本從應(yīng)用角度來介紹大模型技術(shù)的書籍,其特點就是除了介紹了大模型的發(fā)展之外;著重介紹了中小企業(yè)大模型的構(gòu)建之路,比如微信的微調(diào),包括LoRA,AdaLoRA等;以及模型優(yōu)化方案,剪枝,蒸餾等。還包括大模型的完整部署方案,以及基于大模型技術(shù)購機上層應(yīng)用,如智能客服,基于思維鏈的AI助理等。
大規(guī)模語言模型從理論到實踐,這本書主要側(cè)重于大模型運維方面的內(nèi)容,包括大模型的基礎(chǔ)原理,以及大模型的訓(xùn)練和微調(diào)過程,包括前期的數(shù)據(jù)處理,大模型分布式并行計算以及監(jiān)督微調(diào)的方法等。
這里只是介紹了基本作者個人感覺還不錯的書籍,當然這些書籍可能并不適合每一個人;而且每本書的側(cè)重方向也不一樣,如果有對這些書籍感興趣的讀者可以選擇性的購買。
以下是常用的一些網(wǎng)站:
huggingface:https://huggingface.co/ 一個類似于github的托管網(wǎng)站,只不過github托管的是代碼,huggingface托管的是大模型和數(shù)據(jù)集。
github官網(wǎng):https://github.com/ 代碼托管平臺,很多大模型都是把模型托管在huggingface上,代碼托管在github上。
openAI官網(wǎng):https://openai.com/chatgpt/ chatGPT網(wǎng)站,提供了與chatGPT的交互以及openAI的服務(wù)接口(目前openAI屏蔽了中國大陸的接口服務(wù),如果想使用可以使用一些第三方的鏡像服務(wù))
字節(jié)旗下coze(扣子)官網(wǎng):https://www.coze.cn/home 提供了通過配置的方式即可體驗AI代理的平臺
aigc網(wǎng)站:https://www.aiagc.com/#google_vignette 一個提供各種AIGC能力的網(wǎng)站,比如文本生成,視頻生成等
pytorch官網(wǎng):由meta開發(fā)的一款基于torch架構(gòu)的python實現(xiàn)的大模型開發(fā)框架
由于大模型技術(shù)屬于一個新興技術(shù),最前沿,最權(quán)威的內(nèi)容都在網(wǎng)絡(luò)中,而書籍中的內(nèi)容在某些方面已經(jīng)有些過時了。當然,這里并不是說書不好,而是現(xiàn)今時代,信息變革太快,書籍更新的速度無法跟上。
還有一點就是,書籍雖然在某些方面過時了,但其系統(tǒng)性和專業(yè)性還是一般技術(shù)網(wǎng)站所無法比擬的。
??點擊「打賞作者」可以對作者進行支持,而且也是對作者的一種認可。