DeepSeek 模型本地化部署

本文最后更新于：2025年4月30日下午

Deepseek 是近期杭州深度求索人工智能基础技术研究有限公司发布的国产大语言模型，在推理速度上相较历史模型有了大幅提升。本文记录本地部署 DeepSeek 模型的流程。

DeepSeek-V3

DeepSeek-V3 是国产大语言模型，在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中，DeepSeek-V3 在开源模型中位列榜首，与世界上最先进的闭源模型不分伯仲。

2025.01.20 DeepSeek-R1 发布，DeepSeek R1 是 DeepSeek AI 开发的第一代推理模型，擅长复杂的推理任务，官方对标OpenAI o1正式版。适用于多种复杂任务，如数学推理、代码生成和逻辑推理等。

官方网站：https://www.deepseek.com/

Benchmark (Metric)	DeepSeek V3	DeepSeek V2.5	Qwen2.5	Llama3.1	Claude-3.5	GPT-4o
Architecture	MoE	MoE	Dense	Dense	-	-
# Activated Params	37B	21B	72B	405B	-	-
# Total Params	671B	236B	72B	405B	-	-
MMLU (EM)	88.5	80.6	85.3	88.6	88.3	87.2
MMLU-Redux (EM)	89.1	80.3	85.6	86.2	88.9	88.0
MMLU-Pro (EM)	75.9	66.2	71.6	73.3	78.0	72.6
DROP (3-shot F1)	91.6	87.8	76.7	88.7	88.3	83.7
IF-Eval (Prompt Strict)	86.1	80.6	84.1	86.0	86.5	84.3
GPQA-Diamond (Pass@1)	59.1	41.3	49.0	51.1	65.0	49.9
SimpleQA (Correct)	24.9	10.2	9.1	17.1	28.4	38.2
FRAMES (Acc.)	73.3	65.4	69.8	70.0	72.5	80.5
LongBench v2 (Acc.)	48.7	35.4	39.4	36.1	41.0	48.1
HumanEval-Mul (Pass@1)	82.6	77.4	77.3	77.2	81.7	80.5
LiveCodeBench (Pass@1-COT)	40.5	29.2	31.1	28.4	36.3	33.4
LiveCodeBench (Pass@1)	37.6	28.4	28.7	30.1	32.8	34.2
Codeforces (Percentile)	51.6	35.6	24.8	25.3	20.3	23.6
SWE Verified (Resolved)	42.0	22.6	23.8	24.5	50.8	38.8
Aider-Edit (Acc.)	79.7	71.6	65.4	63.9	84.2	72.9
Aider-Polyglot (Acc.)	49.6	18.2	7.6	5.8	45.3	16.0
AIME 2024 (Pass@1)	39.2	16.7	23.3	23.3	16.0	9.3
MATH-500 (EM)	90.2	74.7	80.0	73.8	78.3	74.6
CNMO 2024 (Pass@1)	43.2	10.8	15.9	6.8	13.1	10.8
CLUEWSC (EM)	90.9	90.4	91.4	84.7	85.4	87.9
C-Eval (EM)	86.5	79.5	86.1	61.5	76.7	76.0
C-SimpleQA (Correct)	64.1	54.1	48.4	50.4	51.3	59.3

模型说明

根据官方信息DeepSeek R1 可以看到提供多个版本，包括完整版（671B 参数）和蒸馏版（1.5B 到 70B 参数）。完整版性能强大，但需要极高的硬件配置；蒸馏版则更适合普通用户，硬件要求较低

DeepSeek-R1官方地址：https://github.com/deepseek-ai/DeepSeek-R1

完整版（671B）：需要至少 350GB 显存/内存，适合专业服务器部署
蒸馏版：基于开源模型（如 QWEN 和 LLAMA）微调，参数量从 1.5B 到 70B 不等，适合本地硬件部署。

蒸馏版与完整版的区别

特性	蒸馏版	完整版
参数量	参数量较少（如 1.5B、7B），性能接近完整版但略有下降。	参数量较大（如 32B、70B），性能最强。
硬件需求	显存和内存需求较低，适合低配硬件。	显存和内存需求较高，需高端硬件支持。
适用场景	适合轻量级任务和资源有限的设备。	适合高精度任务和专业场景。

这里我们详细看下蒸馏版模型的特点

模型版本	参数量	特点
`deepseek-r1:1.5b`	1.5B	轻量级模型，适合低配硬件，性能有限但运行速度快
`deepseek-r1:7b`	7B	平衡型模型，适合大多数任务，性能较好且硬件需求适中。
`deepseek-r1:8b`	8B	略高于 7B 模型，性能稍强，适合需要更高精度的场景。
`deepseek-r1:14b`	14B	高性能模型，适合复杂任务（如数学推理、代码生成），硬件需求较高。
`deepseek-r1:32b`	32B	专业级模型，性能强大，适合研究和高精度任务，需高端硬件支持。
`deepseek-r1:70b`	70B	顶级模型，性能最强，适合大规模计算和高复杂度任务，需专业级硬件支持。

进一步的模型细分还分为量化版

模型版本	参数量	特点
`deepseek-r1:1.5b-qwen-distill-q4_K_M`	1.5B	轻量级模型，适合低配硬件，性能有限但运行速度快，使用了4-bit 量化，模型精度下降
`deepseek-r1:7b-qwen-distill-q4_K_M`	7B	平衡型模型，适合大多数任务，性能较好且硬件需求适中，使用了4-bit 量化，模型精度下降
`deepseek-r1:8b-llama-distill-q4_K_M`	8B	略高于 7B 模型，性能稍强，适合需要更高精度的场景，使用了4-bit 量化，模型精度下降
`deepseek-r1:14b-qwen-distill-q4_K_M`	14B	高性能模型，适合复杂任务（如数学推理、代码生成），硬件需求较高，使用了4-bit 量化，模型精度下降
`deepseek-r1:32b-qwen-distill-q4_K_M`	32B	专业级模型，性能强大，适合研究和高精度任务，需高端硬件支持，使用了4-bit 量化，模型精度下降
`deepseek-r1:70b-llama-distill-q4_K_M`	70B	顶级模型，性能最强，适合大规模计算和高复杂度任务，需专业级硬件支持，使用了4-bit 量化，模型精度下降

蒸馏版与量化版

模型类型	特点
蒸馏版	基于大模型（如 QWEN 或 LLAMA）微调，参数量减少但性能接近原版，适合低配硬件。
量化版	通过降低模型精度（如 4-bit 量化）减少显存占用，适合资源有限的设备。

例如：

deepseek-r1:7b-qwen-distill-q4_K_M：7B 模型的蒸馏+量化版本，显存需求从 5GB 降至 3GB。
deepseek-r1:32b-qwen-distill-q4_K_M：32B 模型的蒸馏+量化版本，显存需求从 22GB 降至 16GB

我们正常本地部署使用蒸馏版就可以

可根据下表配置选择使用自己的模型

模型名称	参数量	大小	VRAM (Approx.)	推荐 Mac 配置	推荐 Windows/Linux 配置
`deepseek-r1:1.5b`	1.5B	1.1 GB	~2 GB	M2/M3 MacBook Air (8GB RAM+)	NVIDIA GTX 1650 4GB / AMD RX 5500 4GB (16GB RAM+)
`deepseek-r1:7b`	7B	4.7 GB	~5 GB	M2/M3/M4 MacBook Pro (16GB RAM+)	NVIDIA RTX 3060 8GB / AMD RX 6600 8GB (16GB RAM+)
`deepseek-r1:8b`	8B	4.9 GB	~6 GB	M2/M3/M4 MacBook Pro (16GB RAM+)	NVIDIA RTX 3060 Ti 8GB / AMD RX 6700 10GB (16GB RAM+)
`deepseek-r1:14b`	14B	9.0 GB	~10 GB	M2/M3/M4 Pro MacBook Pro (32GB RAM+)	NVIDIA RTX 3080 10GB / AMD RX 6800 16GB (32GB RAM+)
`deepseek-r1:32b`	32B	20 GB	~22 GB	M2 Max/Ultra Mac Studio	NVIDIA RTX 3090 24GB / AMD RX 7900 XTX 24GB (64GB RAM+)
`deepseek-r1:70b`	70B	43 GB	~45 GB	M2 Ultra Mac Studio	NVIDIA A100 40GB / AMD MI250X 128GB (128GB RAM+)
`deepseek-r1:1.5b-qwen-distill-q4_K_M`	1.5B	1.1 GB	~2 GB	M2/M3 MacBook Air (8GB RAM+)	NVIDIA GTX 1650 4GB / AMD RX 5500 4GB (16GB RAM+)
`deepseek-r1:7b-qwen-distill-q4_K_M`	7B	4.7 GB	~5 GB	M2/M3/M4 MacBook Pro (16GB RAM+)	NVIDIA RTX 3060 8GB / AMD RX 6600 8GB (16GB RAM+)
`deepseek-r1:8b-llama-distill-q4_K_M`	8B	4.9 GB	~6 GB	M2/M3/M4 MacBook Pro (16GB RAM+)	NVIDIA RTX 3060 Ti 8GB / AMD RX 6700 10GB (16GB RAM+)
`deepseek-r1:14b-qwen-distill-q4_K_M`	14B	9.0 GB	~10 GB	M2/M3/M4 Pro MacBook Pro (32GB RAM+)	NVIDIA RTX 3080 10GB / AMD RX 6800 16GB (32GB RAM+)
`deepseek-r1:32b-qwen-distill-q4_K_M`	32B	20 GB	~22 GB	M2 Max/Ultra Mac Studio	NVIDIA RTX 3090 24GB / AMD RX 7900 XTX 24GB (64GB RAM+)
`deepseek-r1:70b-llama-distill-q4_K_M`	70B	43 GB	~45 GB	M2 Ultra Mac Studio	NVIDIA A100 40GB / AMD MI250X 128GB (128GB RAM+)

部署工具

Ollama：
- 支持 Windows、Linux 和 Mac 系统，提供命令行和 Docker 部署方式
- 使用命令 ollama run deepseek-r1:7b 下载并运行模型
本地大模型管理框架，Ollama 让用户能够在本地环境中高效地部署和使用语言模型，而无需依赖云服务
LM Studio：
- 支持 Windows 和 Mac，提供可视化界面，适合新手用户
- 支持 CPU+GPU 混合推理，优化低配硬件性能
LM Studio 是一个桌面应用程序，它提供了一个用户友好的界面，允许用户轻松下载、加载和运行各种语言模型（如 LLaMA、GPT 等）
Docker：
- 支持 Linux 和 Windows，适合高级用户。
- 使用命令 docker run -d --gpus=all -p 11434:11434 --name ollama ollama/ollama 启动容器。

由于需要本地化部署语言模型的场景，对数据隐私和自定义或扩展语言模型功能有较高要求，我们这里使用Ollama来进行本地部署运行

Ollama 安装

官方地址：https://ollama.com/

选择自己的系统版本进行下载

控制台验证是否成功安装：

PS K:\VVD_Hexo\source\_posts\notes\study\llm\deepseek-deploy> ollama
Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

Use "ollama [command] --help" for more information about a command.
PS K:\VVD_Hexo\source\_posts\notes\study\llm\deepseek-deploy>

回到Ollama官网选择模型，选择适合你的蒸馏量化模型复制命令进行安装

安装模型：

1	`ollama run deepseek-r1:8b`

越狱版

https://huggingface.co/huihui-ai

越狱版的DeepSeek R1现已托管在Hugging face上，支持8B、14B、32B 【链接直达】

在CMD终端下通过命令下载DeepSeek R1越狱版

1	`ollama run huihui_ai/deepseek-r1-abliterated:7b`

1	`ollama run huihui_ai/deepseek-r1-abliterated:8b`

14b

1	`ollama run huihui_ai/deepseek-r1-abliterated:14b`

32b

1	`ollama run huihui_ai/deepseek-r1-abliterated:32b`

70b

1	`ollama run huihui_ai/deepseek-r1-abliterated:70b`

在终端中可以完成对话：

> ollama run huihui_ai/deepseek-r1-abliterated:7b
>>> 柿子炒鸡蛋怎么做
<think>
好，我来想想怎么制作柿子炒鸡蛋。首先，食材方面需要准备新鲜的柿子、鸡蛋、葱花和一些调料，比如盐、胡椒粉、香油等。

先把柿子清洗一下，去皮切块。然后把鸡蛋打散，煎蛋的时候火不能太大，这样不容易破。煎好后盛出来备用。

锅里放点油，先炒香葱花，提升香味。再把煎好的鸡蛋倒进去翻炒均匀，让鸡蛋吸收调料的味道。接着加入切好的柿子，继续翻炒，
直到柿子变软出汁。最后调味，翻炒均匀就可以装盘了。

这个过程应该要注意火候的控制，让食材入味。可能需要根据个人口味调整盐和胡椒粉的用量。整体上步骤不难，但要细心操作才能
做好。
</think>

制作柿子炒鸡蛋是一道既简单又美味的传统菜，以下是详细的制作步骤：

### 材料准备：
- 新鲜柿子：500克
- 鸡蛋：4个
- 葱花：适量（可选）
- 盐：适量
- 胡椒粉：适量
- 香油：适量

### 制作步骤：

1. **准备食材**：
   - 新鲜柿子洗净去皮，切块备用。
   - 鸡蛋打入碗中，加少许水搅拌均匀（这样炒出来的鸡蛋更松软）。

2. **煎鸡蛋**：
   - 锅中放少量油，加热后倒入打好的鸡蛋液。
   - 煎至鸡蛋凝固成半透明状时关火，盛出备用。这样煎鸡蛋的时候不容易破。

3. **炒葱花**：
   - 锅中重新加适量油，放入切好后的新鲜柿子，先炒几秒钟，让其散发香味。
   - 加入切好的葱花，翻炒几下，使香料味均匀融入。

4. **加入鸡蛋**：
   - 将煎好的鸡蛋倒入锅中，与切好的柿子同炒。注意不要让火太大，否则会破蛋。
   - 持续翻炒，直到鸡蛋凝固，变色，并且能够剥开。

5. **调味**：
   - 加入适量的盐和胡椒粉，根据个人口味进行调整。
   - 最后加入香油等调料，拌匀即可。

6. **装盘**：
   - 将炒好的柿子鸡蛋盛在盘中，可以撒上一些葱花作为点缀。

### 提示：
- 新鲜的柿子有天然甜味，可以根据个人口味进行调整。
- 烤过的柿子会更加香甜，可以提前烤一下再使用。

这样，一道简单的柿子炒鸡蛋就完成了。希望你喜欢这道家常小菜！

>>> Send a message (/? for help)