如何本地部署deep-seek r1

这几天deep-seek在网上刷屏了，我亲身使用了一下确实感觉不错，对比chatgpt-o1, 感觉后者最近降智了不少。除了在使用过程中很容易出现服务器问题。

好在deep-seek开源了几个相关模型，和其他模型对比如下

alt text

主要结论：

DeepSeek-R1-32B在大多数基准测试中表现最好。例如，在AIME 2024中，它的准确率高达96.3%，在MMLU中为97.3%，在Codeforces中的准确率为90.8%。总体而言，它的表现明显优于OpenAI-o1-1217和OpenAI-o1-mini。
OpenAI-o1-1217在所有基准中的表现较差，低于DeepSeek模型。
DeepSeek-R1的表现也很好，但略逊色于DeepSeek-R1-32B。尽管如此，它在大多数基准中仍然优于OpenAI模型。
SWE-bench Verified的表现普遍较差，特别是DeepSeek-R1和OpenAI-o1-1217的表现较弱。

本地部署前须知

初次了解LLM，很常见的两个工具是HuggingFace和Ollama，这两个和LLM有什么关系呢？

**LLM（大型语言模型）**是一种模型范式或技术思路，用于在大规模数据上进行训练并执行自然语言处理任务。
HuggingFace是一个提供模型托管、模型分享，以及开发工具（如Transformers库）的社区与平台，支持各种LLM的开发和使用。可以类比github这个代码托管社区和平台。
Ollama则是一个专门用来在本地环境（如macOS或Linux）部署、运行或微调LLM的工具，让用户无需依赖云端即可使用和开发大型语言模型。

从功能上来说，LLM是技术核心；HuggingFace是“模型市场”和开发者平台，提供了一系列开源库、社区，以及大量可直接下载或在线调用的模型；而Ollama则是一个更偏向本地化部署和管理LLM的工具，可以在自己的设备上快速启动和测试模型。

DeepSeek R1 包含一系列文本模型，并有一个 70B 视觉变体用于图像分析。下面是各个模型的配置需求和最佳使用场景：

模型	所需内存	CPU要求	是否需要GPU	最佳使用场景
1.5B	8GB+	任何现代CPU	❌ 不需要	基础写作、聊天、快速响应
8B	16GB+	4核以上（Intel i5/Ryzen 5/M1）	❌ 不需要	一般推理、较长的写作、编码
14B	32GB+	6核以上（Intel i7/Ryzen 7/M2）	❌ 不需要	深度推理、编码、研究
32B	32-64GB+	8核以上（M3 Pro, Ryzen 9, i9）	✅ 需要GPU（推荐Metal/CUDA）	复杂问题解决、AI辅助编码
70B	64GB+	12核以上（M4 Pro, Threadripper）	✅ 需要GPU（推荐高VRAM GPU）	大型AI工作流、高级研究
70B Vision	64GB+	12核以上（M4 Pro, Threadripper）	✅ 需要GPU（推荐Metal/CUDA）	图像分析、AI生成视觉内容
1.671B	512GB+	128核以上（仅限服务器）	✅ 必须使用多个GPU	仅限云端 — 需要企业级AI服务器

温度范围设置：将 temperature 设置在 0.5-0.7（推荐 0.6）之间，以避免无限重复或输出不连贯的内容。
提示词结构：不要添加系统提示（system prompt），而是把所有指令都写在用户提示（user prompt）里。
数学题提示：在解数学问题时，建议在提示中加入类似“请逐步推理，并用 \boxed{} 包含最终答案”的指令，以确保模型给出详细推理并单独标注最终结果。
测试方法：在评估模型性能时，建议进行多次测试并取平均值，以减少偶然因素对结果的影响。
思考过程输出：DeepSeek-R1 系列模型有时会跳过思考过程输出（<think>\n\n</think>），从而影响性能。为确保模型进行完整的推理，可强制要求模型在回复开始时先输出 <think>\n。

在官网上根据自己的系统选择下载。

ollama下载模型的命令类似git pull，下面这条命令会下载默认的r1模型，很大，最好不要轻易尝试。

‍ollama pull deepseek-r1

真实使用的时候，最好制定版本，例如1.5B, 7B, 14B。

ollama pull deepseek-r1:8b # Fast, lightweight

ollama pull deepseek-r1:14b # Balanced performance

ollama pull deepseek-r1:32b # Heavy processing

ollama pull deepseek-r1:70b # Max reasoning, slowest

下载好后通过‍ollama run deepseek-r1:8b运行，也可以用下面命令看看效果。

1	ollama run deepseek-r1:1.5b "What is the latest news on Rust programming language trends?"

简单的方式可以选择chrome插件。

alt text