这几天deep-seek在网上刷屏了,我亲身使用了一下确实感觉不错,对比chatgpt-o1, 感觉后者最近降智了不少。除了在使用过程中很容易出现服务器问题。

好在deep-seek开源了几个相关模型,和其他模型对比如下

alt text

主要结论:

  1. DeepSeek-R1-32B在大多数基准测试中表现最好。例如,在AIME 2024中,它的准确率高达96.3%,在MMLU中为97.3%,在Codeforces中的准确率为90.8%。总体而言,它的表现明显优于OpenAI-o1-1217和OpenAI-o1-mini。
  2. OpenAI-o1-1217在所有基准中的表现较差,低于DeepSeek模型。
  3. DeepSeek-R1的表现也很好,但略逊色于DeepSeek-R1-32B。尽管如此,它在大多数基准中仍然优于OpenAI模型。
  4. SWE-bench Verified的表现普遍较差,特别是DeepSeek-R1和OpenAI-o1-1217的表现较弱。

本地部署前须知

HuggingFace, LLM, Ollama什么关系

初次了解LLM,很常见的两个工具是HuggingFace和Ollama,这两个和LLM有什么关系呢?

  1. **LLM(大型语言模型)**是一种模型范式或技术思路,用于在大规模数据上进行训练并执行自然语言处理任务。
  2. HuggingFace是一个提供模型托管、模型分享,以及开发工具(如Transformers库)的社区与平台,支持各种LLM的开发和使用。可以类比github这个代码托管社区和平台。
  3. Ollama则是一个专门用来在本地环境(如macOS或Linux)部署、运行或微调LLM的工具,让用户无需依赖云端即可使用和开发大型语言模型。

从功能上来说,LLM是技术核心;HuggingFace是“模型市场”和开发者平台,提供了一系列开源库、社区,以及大量可直接下载或在线调用的模型;而Ollama则是一个更偏向本地化部署和管理LLM的工具,可以在自己的设备上快速启动和测试模型。

deep seek r1不同size的模型

DeepSeek R1 包含一系列文本模型,并有一个 70B 视觉变体用于图像分析。下面是各个模型的配置需求和最佳使用场景:

模型 所需内存 CPU要求 是否需要GPU 最佳使用场景
1.5B 8GB+ 任何现代CPU ❌ 不需要 基础写作、聊天、快速响应
8B 16GB+ 4核以上(Intel i5/Ryzen 5/M1) ❌ 不需要 一般推理、较长的写作、编码
14B 32GB+ 6核以上(Intel i7/Ryzen 7/M2) ❌ 不需要 深度推理、编码、研究
32B 32-64GB+ 8核以上(M3 Pro, Ryzen 9, i9) ✅ 需要GPU(推荐Metal/CUDA) 复杂问题解决、AI辅助编码
70B 64GB+ 12核以上(M4 Pro, Threadripper) ✅ 需要GPU(推荐高VRAM GPU) 大型AI工作流、高级研究
70B Vision 64GB+ 12核以上(M4 Pro, Threadripper) ✅ 需要GPU(推荐Metal/CUDA) 图像分析、AI生成视觉内容
1.671B 512GB+ 128核以上(仅限服务器) ✅ 必须使用多个GPU 仅限云端 — 需要企业级AI服务器

最佳实践点

  1. 温度范围设置:将 temperature 设置在 0.5-0.7(推荐 0.6)之间,以避免无限重复或输出不连贯的内容。
  2. 提示词结构:不要添加系统提示(system prompt),而是把所有指令都写在用户提示(user prompt)里。
  3. 数学题提示:在解数学问题时,建议在提示中加入类似“请逐步推理,并用 \boxed{} 包含最终答案”的指令,以确保模型给出详细推理并单独标注最终结果。
  4. 测试方法:在评估模型性能时,建议进行多次测试并取平均值,以减少偶然因素对结果的影响。
  5. 思考过程输出:DeepSeek-R1 系列模型有时会跳过思考过程输出(<think>\n\n</think>),从而影响性能。为确保模型进行完整的推理,可强制要求模型在回复开始时先输出 <think>\n。

本地部署

安装Ollama

官网上根据自己的系统选择下载。

下载deep seek r1

ollama下载模型的命令类似git pull,下面这条命令会下载默认的r1模型,很大,最好不要轻易尝试。

‍ollama pull deepseek-r1

真实使用的时候,最好制定版本,例如1.5B, 7B, 14B。

ollama pull deepseek-r1:8b # Fast, lightweight

ollama pull deepseek-r1:14b # Balanced performance

ollama pull deepseek-r1:32b # Heavy processing

ollama pull deepseek-r1:70b # Max reasoning, slowest

运行

下载好后通过‍ollama run deepseek-r1:8b运行,也可以用下面命令看看效果。

1
ollama run deepseek-r1:1.5b  "What is the latest news on Rust programming language trends?"

可视化界面

简单的方式可以选择chrome插件

alt text