不见春山
骑马倚斜桥,满楼红袖招。
Home
Categories
Archives
Tags
About
Home
本地部署大语言模型
本地部署大语言模型
取消
本地部署大语言模型
由
ctaoist
发布于 2024-07-23
·
最后更新:2024-07-23
1
现在才玩大语言模型虽然有点迟了,但在本地部署的方案也比较成熟,不会遇到什么坑。 ## 下载模型 开源的大模型有很多,哪个模型中文更好也没有经验,先选择[中文羊驼大模型三期项目](https://github.com/ymcui/Chinese-LLaMA-Alpaca-3)试试效果。 按照该项目作者的推荐下载 [ggml-model-q8_0.gguf](https://huggingface.co/hfl/llama-3-chinese-8b-instruct-v3-gguf/resolve/main/ggml-model-q8_0.gguf)。 也可以通过 ollama 下载,省去后续的转换过程(转换过程很慢): ```sh ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8 ``` >ollama 大语言模型镜像地址:https://ollama.com/wangshenzhi/llama3-8b-chinese-chat-ollama-q8 ## 部署 Ollama 运行推理框架选择 [Ollama](https://ollama.com/),Ollama 是一个多平台(macOS, Windows, Linux)的大模型聊天程序,能够加载GGUF格式(llama.cpp)的模型。 自动下载安装命令: ```sh curl -fsSL https://ollama.com/install.sh | sh ``` 也可以手动下载最新版: ```sh curl -L -O https://ollama.com/download/ollama-linux-amd64 # 运行 Ollama ollama-linux-amd64 start ## 如果 open-webui 和 ollama 不在同一个服务器上部署 OLLAMA_HOST=0.0.0.0:11434 ollama start # 如果使用 pm2 OLLAMA_HOST=0.0.0.0:11434 pm2 start ollama --update-env -- start ``` 下载完模型后创建 `Modelfile` 文件: ``` FROM /your-path-to-ggml/ggml-model-q8_0.gguf TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|> {{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|> {{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|> {{ .Response }}<|eot_id|>""" SYSTEM """You are a helpful assistant. 你是一个乐于助人的助手。""" PARAMETER temperature 0.2 PARAMETER num_keep 24 PARAMETER stop <|start_header_id|> PARAMETER stop <|end_header_id|> PARAMETER stop <|eot_id|> ``` 其中: - `FROM` 字段指向GGUF文件的路径,由于是聊天交互,这里使用的是 `Instruct模型` - `TEMPLATE` 字段定义了 `Llama-3-Instruct` 的指令模板格式 - `SYSTEM` 字段定义了系统指令(目前设置为空) - `PARAMETER` 字段定义了一些超参数,详细列表参见:[https://github.com/ollama/ollama/blob/main/docs/modelfile.md](https://github.com/ollama/ollama/blob/main/docs/modelfile.md) 创建模型实例: ```sh ollama create llama3-zh-inst -f Modelfile ``` ## 部署 Open-webui [Open WebUI](https://github.com/open-webui/open-webui)(以前称为Ollama WebUI)是一款面向大型语言模型(LLMs)的用户友好型Web界面,支持Ollama和兼容OpenAI的API运行。通过一个直观的界面,它为用户提供了一种便捷的方式,与语言模型进行交互、训练和管理。 比较简单的部署方式是通过 docker 部署: ```sh docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main ``` 其中 `OLLAMA_BASE_URL` 是指定 Ollama 部署运行的地址,ollama 默认端口为 `11434`,这个例子中 `Open-Webui` 的端口是 `3000`。 ## 写在最后 因为显卡比较一般,只能部署 8B 左右的模型,宛如智障,而且速度也很慢,玩两下就腻了。 带知识库的可能会比较好一点,记录几个: - [FastGPT](https://github.com/labring/FastGPT): 一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景! - [private-gpt](https://github.com/zylon-ai/private-gpt) - [Langchain-Chatchat](https://github.com/chatchat-space/Langchain-Chatchat): 一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。 玩大模型很吃硬件资源,玩不起呐,不如直接使用国内的大模型。 >Deepseek 和 Qwen 现在都挺便宜的,1M Token 才一块钱左右,效果还行。 ## 参考 - [Ollama 部署 LLaMA-Alpaca-3](https://github.com/ymcui/Chinese-LLaMA-Alpaca-3/wiki/ollama_zh)
机器学习
机器学习
该博客文章由作者通过
CC BY 4.0
进行授权。
分享
最近更新
群晖升级 ARPL 笔记
本地部署大语言模型
LVM 管理
HK1 RBOX X4 电视盒子折腾笔记
使用usbip网络转发usb设备到远程主机
热门标签
机器学习
Linux
Router
ROS
Tensorflow
VPN
虚拟组网
ARM
Latex
zerotier
文章目录
-
LVM 管理