零. 引言
什么是Ollama:
Ollama是一個開源的大型語言模型服務工具,它幫助用戶快速在本地運行大模型,通過簡單的安裝指令,可以讓用戶執行一條命令就在本地運行開源大型語言模型,例如 Llama2。這個框架簡化了在Docker容器內部署和管理LLM的過程,使得用戶能夠快速地在本地運行大型語言模型。
Ollama 將模型權重、配置和數據捆綁到一個包中,定義成 Modelfile。它優化了設置和配置細節,包括 GPU 使用情況。
Ollama的優勢:
①易于使用:Ollama提供了一個簡單的API,使得即使是沒有經驗的用戶也可以輕松使用。此外,它還提供了類似ChatGPT的聊天界面,用戶無需開發即可直接與模型進行聊天交互。
②輕量級:Ollama的代碼簡潔明了,運行時占用資源少。這使得它能夠在本地高效地運行,不需要大量的計算資源。
③可擴展:Ollama支持多種模型架構,并可以擴展以支持新的模型。它還支持熱加載模型文件,無需重新啟動即可切換不同的模型,這使得它非常靈活多變。
④預構建模型庫:Ollama提供了一個預構建模型庫,可以用于各種任務,如文本生成、翻譯、問答等。這使得在本地運行大型語言模型變得更加容易和方便。
一. 下載 Ollama 安裝文件
訪問 https://ollama.com/download,選擇 Windows,單擊 “Download for Windows (Preview)” 進行下載。
二. 安裝 Ollama
雙擊下載的 “OllamaSetup.exe”,進行安裝。
三. 環境變量
Ollama 下載的模型默認保存在 C 盤。
強烈建議更改默認路徑,可以通過新建環境變量 OLLAMA_MODELS 進行修改。
OLLAMA_MODELS
E:\OllamaCache
設置成功后重啟電腦生效修改
四. 使用 Ollama
訪問 https://ollama.com/library,搜索需要使用的模型,主流的模型。
記得先啟動Ollma,確保Ollma在任務欄
再下面以 qwen-7b 為例,選擇運行 7b 的模型,
拷貝上面紅框的命令并在cmd或者PowerShell運行(推薦使用cmd),ollama run qwen:7b
等待模型下載與加載,目前前95%下載速度快,99%到100%速度較慢。
當出現 Send a nessage 即可開始模型的使用
qwen-7b效果圖:ollama run qwen:7b
orion14b-q4效果圖:ollama run orionstar/orion14b-q4
llama2-chinese效果圖:ollama run llama2-chinese
網絡上搜集的問題與回答:
五. 再次使用
確保Ollama正常運行后,
在cmd輸入運行代碼即可免下載安裝直接使用(已在第4步模型安裝成功)
如:ollama run llama2-chinese
六. 結語
本人使用的是8GB-2070super,16GB內存,i7-10700K。
在運行qwen-7b和llama2-chinese相當流暢,直接反饋出回復。