DeepSeek R1 发布后,凭借其强大的推理能力和超高的性价比瞬间刷爆了技术圈。很多同学想在本地 4090 甚至 Mac 上跑起来,但过程中遇到了各种环境依赖、显存溢出等问题。

本文将基于 Ollama + OpenWebUI 的方案,带大家零基础完成本地部署,并分享几个我在部署过程中踩过的坑。

前置要求: 建议拥有 16GB 以上统一内存(Mac)或 8GB 以上显存(Nvidia)。如果是纯 CPU 推理,生成速度会相对较慢(约 3-5 tokens/s)。

一、环境准备与 Ollama 安装

Ollama 是目前最方便的大模型运行工具,支持 macOS, Windows 和 Linux。它帮我们屏蔽了复杂的 Docker 和 CUDA 配置。

首先访问官网下载安装包,安装完成后,打开终端验证是否安装成功:

# 1. 验证版本 ollama --version # 2. 如果显示 ollama version is 0.1.28 或更高,说明安装成功

二、下载模型权重

DeepSeek R1 提供了多个参数版本,推荐从 7B 或 8B 版本开始尝试,既保证了效果,又不会撑爆显存。

# 拉取 DeepSeek-R1 7b 模型 ollama run deepseek-r1:7b # 如果显存充足 (24G+),可以尝试 32b ollama run deepseek-r1:32b

执行上述命令后,Ollama 会自动开始下载模型文件。下载速度取决于你的网络环境,文件大小约为 4.7GB。

终端内模型下载进度示意图
终端内模型下载进度示意图

三、常见报错解决方案

很多同学在启动 WebUI 时发现连不上 Ollama。通常是因为 Ollama 默认监听 11434 端口。请确保防火墙没有拦截该端口。

1. 端口冲突问题

如果端口被占用,可以通过以下命令查看:

# macOS/Linux lsof -i :11434 # Windows netstat -ano | findstr 11434

2. 显存优化技巧

对于显存不足的情况,可以尝试量化版本:

# 使用 4-bit 量化版本,显存占用更低 ollama run deepseek-r1:7b-q4_0

四、配置 OpenWebUI

OpenWebUI 是一个美观的 Web 界面,让你可以像使用 ChatGPT 一样与本地模型对话。

# 使用 Docker 一键部署 docker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:main

部署完成后,访问 http://localhost:3000 即可开始使用!

总结

通过本教程,你应该已经成功在本地部署了 DeepSeek R1。如果遇到问题,欢迎在评论区留言,我会尽力帮助解答。

关键要点回顾:

  • Ollama 简化了模型部署流程
  • 根据显存选择合适的模型版本
  • OpenWebUI 提供了友好的交互界面
  • 注意端口和防火墙配置