这几天deep-seek在网上刷屏了,我亲身使用了一下确实感觉不错,对比chatgpt-o1, 感觉后者最近降智了不少。除了在使用过程中很容易出现服务器问题。
好在deep-seek开源了几个相关模型,和其他模型对比如下
主要结论:
- DeepSeek-R1-32B在大多数基准测试中表现最好。例如,在AIME 2024中,它的准确率高达96.3%,在MMLU中为97.3%,在Codeforces中的准确率为90.8%。总体而言,它的表现明显优于OpenAI-o1-1217和OpenAI-o1-mini。
- OpenAI-o1-1217在所有基准中的表现较差,低于DeepSeek模型。
- DeepSeek-R1的表现也很好,但略逊色于DeepSeek-R1-32B。尽管如此,它在大多数基准中仍然优于OpenAI模型。
- SWE-bench Verified的表现普遍较差,特别是DeepSeek-R1和OpenAI-o1-1217的表现较弱。
本地部署前须知
HuggingFace, LLM, Ollama什么关系
初次了解LLM,很常见的两个工具是HuggingFace和Ollama,这两个和LLM有什么关系呢?
- **LLM(大型语言模型)**是一种模型范式或技术思路,用于在大规模数据上进行训练并执行自然语言处理任务。
- HuggingFace是一个提供模型托管、模型分享,以及开发工具(如Transformers库)的社区与平台,支持各种LLM的开发和使用。可以类比github这个代码托管社区和平台。
- Ollama则是一个专门用来在本地环境(如macOS或Linux)部署、运行或微调LLM的工具,让用户无需依赖云端即可使用和开发大型语言模型。
从功能上来说,LLM是技术核心;HuggingFace是“模型市场”和开发者平台,提供了一系列开源库、社区,以及大量可直接下载或在线调用的模型;而Ollama则是一个更偏向本地化部署和管理LLM的工具,可以在自己的设备上快速启动和测试模型。
deep seek r1不同size的模型
DeepSeek R1 包含一系列文本模型,并有一个 70B 视觉变体用于图像分析。下面是各个模型的配置需求和最佳使用场景:
模型 | 所需内存 | CPU要求 | 是否需要GPU | 最佳使用场景 |
---|---|---|---|---|
1.5B | 8GB+ | 任何现代CPU | ❌ 不需要 | 基础写作、聊天、快速响应 |
8B | 16GB+ | 4核以上(Intel i5/Ryzen 5/M1) | ❌ 不需要 | 一般推理、较长的写作、编码 |
14B | 32GB+ | 6核以上(Intel i7/Ryzen 7/M2) | ❌ 不需要 | 深度推理、编码、研究 |
32B | 32-64GB+ | 8核以上(M3 Pro, Ryzen 9, i9) | ✅ 需要GPU(推荐Metal/CUDA) | 复杂问题解决、AI辅助编码 |
70B | 64GB+ | 12核以上(M4 Pro, Threadripper) | ✅ 需要GPU(推荐高VRAM GPU) | 大型AI工作流、高级研究 |
70B Vision | 64GB+ | 12核以上(M4 Pro, Threadripper) | ✅ 需要GPU(推荐Metal/CUDA) | 图像分析、AI生成视觉内容 |
1.671B | 512GB+ | 128核以上(仅限服务器) | ✅ 必须使用多个GPU | 仅限云端 — 需要企业级AI服务器 |
最佳实践点
- 温度范围设置:将 temperature 设置在 0.5-0.7(推荐 0.6)之间,以避免无限重复或输出不连贯的内容。
- 提示词结构:不要添加系统提示(system prompt),而是把所有指令都写在用户提示(user prompt)里。
- 数学题提示:在解数学问题时,建议在提示中加入类似“请逐步推理,并用 \boxed{} 包含最终答案”的指令,以确保模型给出详细推理并单独标注最终结果。
- 测试方法:在评估模型性能时,建议进行多次测试并取平均值,以减少偶然因素对结果的影响。
- 思考过程输出:DeepSeek-R1 系列模型有时会跳过思考过程输出(<think>\n\n</think>),从而影响性能。为确保模型进行完整的推理,可强制要求模型在回复开始时先输出 <think>\n。
本地部署
安装Ollama
在官网上根据自己的系统选择下载。
下载deep seek r1
ollama下载模型的命令类似git pull,下面这条命令会下载默认的r1模型,很大,最好不要轻易尝试。
ollama pull deepseek-r1
真实使用的时候,最好制定版本,例如1.5B, 7B, 14B。
ollama pull deepseek-r1:8b # Fast, lightweight
ollama pull deepseek-r1:14b # Balanced performance
ollama pull deepseek-r1:32b # Heavy processing
ollama pull deepseek-r1:70b # Max reasoning, slowest
运行
下载好后通过ollama run deepseek-r1:8b
运行,也可以用下面命令看看效果。
1 | ollama run deepseek-r1:1.5b "What is the latest news on Rust programming language trends?" |
可视化界面
简单的方式可以选择chrome插件。