- 操作系统:Ubuntu 22.04 LTS 或更新版本
- 硬件要求:
- CPU:4 核及以上
- 内存:16GB+
- GPU(可选):NVIDIA GTX 1060 6GB+/RTX 系列(推荐)
步骤 1:安装系统依赖
sudo apt update && sudo apt upgrade -y
sudo apt install -y curl git-lfs build-essential cmake python3-pip
步骤 2:配置 NVIDIA 显卡驱动
# 自动安装推荐驱动
sudo ubuntu-drivers autoinstall
sudo reboot
使用 nvidia-smi 验证驱动安装
# 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 启动服务
sudo systemctl start ollama
sudo systemctl enable ollama
方法 1:使用预转换模型
mkdir -p ~/.ollama/models
wget -P ~/.ollama/models https://huggingface.co/模型路径/deepseek-r1-7b.Q4_K_M.gguf
方法 2:手动转换模型
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make
./quantize ~/deepseek-r1-7b.f16.gguf ~/deepseek-r1-7b.Q4_K_M.gguf Q4_K_M
# 创建 Modelfile
echo 'FROM ~/.ollama/models/deepseek-r1-7b.Q4_K_M.gguf
PARAMETER num_ctx 4096' > ~/.ollama/Modelfile/deepseek
# 注册模型
ollama create deepseek-r1-7b -f ~/.ollama/Modelfile/deepseek
# 命令行交互测试
ollama run deepseek-r1-7b "解释量子计算的基本原理"
# 监控 GPU 状态
watch -n 1 nvidia-smi
| 问题现象 |
解决方案 |
| 模型加载失败 |
检查文件权限:sudo chown -R $USER:$USER ~/.ollama |
| 显存不足错误 |
修改 Modelfile 的 num_gpu 参数降低显存分配比例 |
- 优先使用 4-bit 量化模型平衡性能与精度
- 定期执行
ollama prune 清理旧模型缓存
- 生产环境建议配合 Nginx 做反向代理
文章评论