不见春山
骑马倚斜桥,满楼红袖招。
Home
Categories
Archives
Tags
About
Home
本地部署大语言模型
本地部署大语言模型
取消
本地部署大语言模型
由
ctaoist
发布于 2024-07-23
·
最后更新:2024-07-23
1
现在才玩大语言模型虽然有点迟了,但在本地部署的方案也比较成熟,不会遇到什么坑。 ## 下载模型 开源的大模型有很多,哪个模型中文更好也没有经验,先选择[中文羊驼大模型三期项目](https://github.com/ymcui/Chinese-LLaMA-Alpaca-3)试试效果。 按照该项目作者的推荐下载 [ggml-model-q8_0.gguf](https://huggingface.co/hfl/llama-3-chinese-8b-instruct-v3-gguf/resolve/main/ggml-model-q8_0.gguf)。 也可以通过 ollama 下载,省去后续的转换过程(转换过程很慢): ```sh ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8 ``` >ollama 大语言模型镜像地址:https://ollama.com/wangshenzhi/llama3-8b-chinese-chat-ollama-q8 ## 部署 Ollama 运行推理框架选择 [Ollama](https://ollama.com/),Ollama 是一个多平台(macOS, Windows, Linux)的大模型聊天程序,能够加载GGUF格式(llama.cpp)的模型。 自动下载安装命令: ```sh curl -fsSL https://ollama.com/install.sh | sh ``` 也可以手动下载最新版: ```sh curl -L -O https://ollama.com/download/ollama-linux-amd64 # 运行 Ollama ollama-linux-amd64 start ## 如果 open-webui 和 ollama 不在同一个服务器上部署 OLLAMA_HOST=0.0.0.0:11434 ollama start # 如果使用 pm2 OLLAMA_HOST=0.0.0.0:11434 pm2 start ollama --update-env -- start ``` 下载完模型后创建 `Modelfile` 文件: ``` FROM /your-path-to-ggml/ggml-model-q8_0.gguf TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|> {{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|> {{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|> {{ .Response }}<|eot_id|>""" SYSTEM """You are a helpful assistant. 你是一个乐于助人的助手。""" PARAMETER temperature 0.2 PARAMETER num_keep 24 PARAMETER stop <|start_header_id|> PARAMETER stop <|end_header_id|> PARAMETER stop <|eot_id|> ``` 其中: - `FROM` 字段指向GGUF文件的路径,由于是聊天交互,这里使用的是 `Instruct模型` - `TEMPLATE` 字段定义了 `Llama-3-Instruct` 的指令模板格式 - `SYSTEM` 字段定义了系统指令(目前设置为空) - `PARAMETER` 字段定义了一些超参数,详细列表参见:[https://github.com/ollama/ollama/blob/main/docs/modelfile.md](https://github.com/ollama/ollama/blob/main/docs/modelfile.md) 创建模型实例: ```sh ollama create llama3-zh-inst -f Modelfile ``` ## 部署 Open-webui [Open WebUI](https://github.com/open-webui/open-webui)(以前称为Ollama WebUI)是一款面向大型语言模型(LLMs)的用户友好型Web界面,支持Ollama和兼容OpenAI的API运行。通过一个直观的界面,它为用户提供了一种便捷的方式,与语言模型进行交互、训练和管理。 比较简单的部署方式是通过 docker 部署: ```sh docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main ``` 其中 `OLLAMA_BASE_URL` 是指定 Ollama 部署运行的地址,ollama 默认端口为 `11434`,这个例子中 `Open-Webui` 的端口是 `3000`。 ## 写在最后 因为显卡比较一般,只能部署 8B 左右的模型,宛如智障,而且速度也很慢,玩两下就腻了。 带知识库的可能会比较好一点,记录几个: - [FastGPT](https://github.com/labring/FastGPT): 一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景! - [private-gpt](https://github.com/zylon-ai/private-gpt) - [Langchain-Chatchat](https://github.com/chatchat-space/Langchain-Chatchat): 一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。 玩大模型很吃硬件资源,玩不起呐,不如直接使用国内的大模型。 >Deepseek 和 Qwen 现在都挺便宜的,1M Token 才一块钱左右,效果还行。 ## 参考 - [Ollama 部署 LLaMA-Alpaca-3](https://github.com/ymcui/Chinese-LLaMA-Alpaca-3/wiki/ollama_zh)
机器学习
机器学习
该博客文章由作者通过
CC BY 4.0
进行授权。
分享
最近更新
群晖升级 ARPL 笔记
本地部署大语言模型
WireGuard 搭建组网教程
LVM 管理
HK1 RBOX X4 电视盒子折腾笔记
热门标签
机器学习
Tensorflow
Linux
VPN
虚拟组网
Router
ROS
嵌入式
C++
C
文章目录
-
LVM 管理