“为了学习大模型，我把这周的婚礼取消了”

这几天看了墨友笔记分享的一个关于如何使用大模型的视频：
https://www.bilibili.com/video/BV1X893Y8E5Y/

（标题是原youtube视频的热评）

看完后很有收获，所以写下这篇文章。

现在国内外有很多大模型相关的产品，比如deep seek、腾讯元宝、kimi等国内大模型，ChatGPT、Claude、Gemini等国际大模型。这些模型大看有很多相似功能，让我们日常使用中有很多选择。

我最常用的大模型有ChatGPT, deep seek, 元宝，grok, claude，这篇文章主要结合我自己的日常使用经验，以及看完这个视频学到的内容，给大家分享下如何更好地使用大模型。

普通对话能力

和大模型对话是我们日常生活中最常使用的功能，比如打开deep seek问”一年有多少季节“这个问题，大模型很快会给出一年有4个季节的回答。

alt text

这种对话对我们人类来讲，理解非常简单，我们首先通过听觉获取到声音信息，这个信息会调动大脑的知识库，在我们大脑进行语义分析，然后用嘴回答。

对于大模型来讲，信息的模式和传输时这样的：

人输入一段文本给大模型，大模型通过自己独特的识字方式”分词“，将这段文本分为一个个独立的token，接着token又一个个映射成一串数字编码。（大模型底层是计算机通过大数据训练出来的，所谓的训练就是各种复杂计算，所以文字最终转换成数字，对于大模型来讲很方便。）

alt text

知道了输入，我们可以大胆地猜测输出其实是输入的逆向形式，也就是大模型内部匹配到了合适的数字编号，然后把这些数字编号映射成token，最终翻译成文本。

alt text

知道了输入和输出，大模型内部机制对于我们还是个黑盒。所以很好奇，对于这些输入、输出的数字编码，大模型是怎么找到对应关系，建立联系的？

要回答这个问题，就得知道大模型是怎么来的。

大模型其实就是一个大型的神经网络，粗俗点讲，就是一个复杂函数的实体，输入一些变量，就会输出对应的值。大模型在大量的文本数据上进行了预训练，学到我们人类语言的模式和语义关联，比如春眠不觉晓和处处闻啼鸟的关联性。这些模式和关联关系出现在一起的概率很高，大模型就能通过概率大小趋向性做出选择。（对于大模型来讲，只有数字和计算逻辑，所有的抽象概念都是我们赋予的，为了更好理解和表达）

alt text

比如“一年有多少个季节”这段话，大模型已经知道了季节和春夏秋冬、四这些词的联系性很大，你输入这句话，这句话大概率就会紧接着“春夏秋冬、四”这些词。

所以，本质上，大模型的所有输出，都是基于大数据的统计分布在做预测，它并不真的“理解”事实真相，只是能给出比较像真相的回答。

所以，当你使用大模型的时候，就得时刻保持怀疑的态度。当然时刻保持怀疑的态度很累，这让我想起了一个有意思的事实：你从高楼跳下来不会死，到底死不死只有你跳下来落在地上那一刻才知道。

很多人都会忽略这个基本事实，默认认为从高处往下跳会死的，因为概率很大，正是因为这个极高的概率，让我们不会怀疑这个看法是否有问题。

如果大模型的输出可以达到99%的正确性，那我们还需要保持怀疑的态度吗？大部分的时候不需要，小部分事情具体看，如果这个事情你非常在乎，那就去怀疑他，从别的渠道获取更多信息，把主动权交给自己。

和大模型进行简单的对话，对我来讲，一些很有用的经验是这样的：普遍常识的问题，大模型回答是比较可靠的，比如问感冒、常见病；冷门问题，持怀疑态度。

记忆

除了处理你来我去的对话，大模型也像人一样有记忆功能。这个可以理解为，我们最终输入给大模型token，除了本身的问题，还拼接上了之前的对话内容。

alt text

这种记忆也叫上下文窗口，类似人类的工作记忆，短暂且容量很小。所以在一个对话窗口中，如果你和大模型聊得越来越多，那工作记忆就会越来越满，这会导致两个问题：

分散模型的注意力，就像大脑认知负荷一样，会导致生成的回答准确性降低
工作记忆的token越堆越多，预测下一个token的速度会变得越慢，成本越高。

所以，我们用一个大模型的时候，如果换话题了，最好新开启一个对话框，清空工作记忆。

类似人的记忆机制，大模型也有长期记忆，这个后面会讲到。

推理思考

大模型的简单对话类似人的系统一，不用费力思考，遇见问题快问快答。人还有慢系统——系统二，大模型的设计也有系统二，也就是思考功能，可以进行推理。

为了演示大模型的思考功能，我用了下 Kimi 这个问题：“9.11 和 9.9 哪个更大？” 这是一个很经典的大模型智力测试问题。

alt text

我总共做了4个对比实验。实验A是普通对话，问题出现在“更大”有歧义，可能是数字的大小，可能是版本号的大小，可能是日期的大小。从分词来看，大模型是把小数点后面的整体堪称一个token了，这个token是数字，所以就会很容易进入数字的语义空间，然后进行大小的比对，最终给了我们9.11更大的错误信息。

alt text

实验B和C用了提示工程技巧，可以看到，因为有了别的信息约束”分步思考“和”数字“，不同的提示会影响模型的预测路径，大模型被引导到了有效的推理上，最终给出了正确的回答。

实验D用到了Kimi的复杂推理能力，思考链是这样的：

嗯，用户想知道9.11和9.9哪个更大。这是个比较两个小数大小的问题，应该是挺基础的数学知识吧，不过我得仔细思考步骤，不能出错

首先，我得想想怎么比较两个小数。我记得比较小数大小得从高位到低位依次比较对应的数位上的数字。先看整数部分，这两个数的整数部分都是9，那这部分相等，接下来就得看小数部分了。小数部分第一位，9.11的小数部分第一位是1，9.9的小数部分第一位是9。

这时候我得判断一下1和9的大小关系，显然9比1大，那是不是可以直接说9.9更大呢？不过我得再仔细检查检查，别因为这一步就草率下结论。

我得回想一下小数的比较规则，小数的大小比较，整数部分相等时，确实是小数部分第一位大的那个数大。如果小数部分的第一位也相等，那就看第二位，以此类推。这里9.11的小数部分第一位1和9.9的小数部分第一位9，9比1大，所以按照规则，9.9是大于9.11的。

嗯，我觉得这样解释应该挺清楚的，用户应该能明白了，那我就可以这样回答用户了。

可以发现，kimi首先是对问题进行了基本的定义，选定了数字比较框架，决定用基础的数学知识；接着它提醒自己不能出错，说明有别的假设，但是可惜，他没有沿着别的假设推演，这是kimi的问题。后面就是数字逻辑的比较了，先比较整数，后比较小数。

Kimi有点不行，然后我们来用deep seek deep think 下：

Thought for 30 seconds
嗯，用户问的是9.11和9.9哪个更大。这个问题看起来简单，但作为刚开始学数学的小朋友来说，可能还是需要仔细分析一下的。

首先，我需要确认用户是不是真的在问数字的大小比较，还是有其他的含义。比如，有时候可能会有版本号的问题，比如软件版本9.11和9.9，但一般来说，版本号比较可能会用不同的方法，比如逐个部分比较，但这里用户可能只是单纯比较数值的大小。

首先，我应该把这两个数都转换成小数形式来比较。9.11其实就是9加上0.11，而9.9则是9加上09。不过，这里需要注意的是，小数点后的位数不同，一个是两位，一个是一位。通常比较小数的时候，我们可以将小数点后的位数补齐，方便比较。例如，把9.9写成9.90，这样就和9.11一样有两位小数了。

接下来，比较整数部分。两者的整数部分都是9，所以相等，这时候就要看小数部分。对于9.11来说，小数部分是0.11，而9.9的小数部分是0.90。这时候直接比较0.11和0.90，显然0.90更大，所以9.90比9.11大，也就是9.9比9.11大。不过，可能有人会误以为小数点后的数字是按位数逐个比较，比如先比较十分位，9.11的十分位是1，而9.9的十分位是9，所以直接得出9.9更大，而不需要看后面的百分位。这也是正确的，因为在小数比较中，先比较高位，如果高位已经能决定大小，后面的位数就…

deep seek给出了可能是版本号比较的猜测，然后否定了。至少比kimi好点。

从思考链里总结出大模型推理的关键步骤分为以下四个部分：

解析问题意图：首先，大模型会识别问题的结构和关键字，如“9.11”“9.9”“更大”等，然后判断它们可能的语义类别，比如数字、日期或其他上下文含义。
多重假设推理：由于“9.11”和“9.9”可以有不同的理解方式（小数、日期等），模型会生成多个假设并进行推理。
选择最优答案：根据上下文信息，模型会评估不同假设的合理性，并给出概率最高的答案。
输出答案并解释：在更高级的推理任务中，大模型可能会进行“思维链”推理，逐步展示其推理过程，使答案更具可信度。

读到这里，如果你觉得自己思考路径不清晰，可以学习一下大模型的思考链，简单讲就是”定义问题类型，建立假设，再选择最优答案，再给出解释“这个套路。

相比于普通对话，思考链多了个思考步骤：<输入, 思考, 输出>，通过”定义问题类型，建立假设，再选择最优答案，再给出解释“这个路径将复杂的问题拆分成相对简单的小问题并分步骤处理，使模型能够聚焦于问题的特定部分，来提高输出质量和准确性。

简短问答、常规闲聊、事实性查询一般就用普通对话模式；复杂问题求解、解释性回答或者决策和规划可以用推理功能。

另外，在普通对话中，也可以精心设计下提示词，明确要求“请详细解释你的思考过程”或“请分步骤回答”，以触发模型使用链式思考，或者给出示例，明确想要的输出格式。对于复杂问题，设定背景信息和约束条件，能使模型更好地分解问题，从而输出更全面的推理过程。

关于推理模型，前段时间读到一篇有意思的文章
https://mp.weixin.qq.com/s/wS_Y-ctDvt-1EUCMACje6w

这篇文章指出了“关于模型的训练机制不同，需要设计不同的提示词”的观点。

普通对话的大模型是通过在预训练的基础上，加上了监督微调，依赖于大量的人工标注数据，在训练过程中依赖人为示例来指导推理。所以提示词的设计会明确地提供示例、步骤和推理过程的引导。

推理大模型基于加强学习模型，具备通过推理自主得出结论的能力，因此我们的提示词不需要示例，避免过多地干预其推理过程，相反，而是提供清晰的问题描述和预期结果，让大模型自主选择最佳路径。

这里我用ChatGPT的o3 mini验证下：

alt text

我很不喜欢右侧的回答，结构层次的重点变成了病状，而不是具体病。读起来很奇怪，所以看来，确实是我们的提示词给大模型产生了很多限制。

搜索

很多大模型都有联网搜索功能，比如元宝、ChatGPT、perplexity。联网搜索相当于在你的输入拼接了实时请求互联网的信息，丰富了上下文工作区，注入了动态数据。

alt text

普通对话模式的大模型通过预训练获取了固定的知识库，这个知识库大概是半年前的，为了获取实时信息，搜索模式就可以访问互联网，实时检索最新的信息。开启了搜索，在回答我们的问题之前，大模型产品首先会查询外部信息来源，再结合语言模型的知识库来组织答案。

搜索功能让大模型从静态知识系统升级为一个可动态扩展的智能体，特别适合时间敏感任务，比如问实时新闻、科技前沿、今日热点等内容。

国外的搜索大模型有perplexity，国内有秘塔搜索，想了解国内的时候就用秘塔，想了解国外的就用perplexity.

alt text

deep research = deep think + deep search

ChatGPT第一个推出了deep research模式，需要200美元/月的会员才能享受到。我在微信公众号疯狂追howie和小能熊的使用分享，很带劲：

https://mp.weixin.qq.com/s/B6LrusPBE9YXhQbctZle1g

我最近确实在思考怎么用AI提高学习效率，因为我发现我大部分的时间，我至少得做4件事情：制定计划、搜集资料、执行计划和复盘反馈，很费时，我希望前两件事AI帮我代替做掉，如果AI足够可信的话，或许有一天我会用上deep research.

好在现在grok3有免费的可以使用。让我来测试下，墨友前几天问了问一个问题，我拿这个问题来做个deep research.

alt text

听说拉伸可以预防、减轻运动后的损伤，但有时候拉伸也会影响「懒人」坚持去长期跑步，请调研下跑前、跑后需要拉伸么？或者有没有数据支持每天跑多少公里以内、跑速多少以内但不拉伸对人体影响最小？

这是grok3的回答：我看了下，质量很高，结论很严谨，正反面支撑的参考依据都有，参考资料要么是医学相关、要么是运动相关，而且都是英文。

alt text

下面是perplexity的回答：参考资料选用太差了，都是搜狐BBC媒体资料，误导性强。但是说个别的，perplexity的AI驱动页面这个交互不错。

alt text

perplexity最终给了个关于运动量与拉伸时间的关系，鉴于他的资料都是搜狐的，我觉得很不可信。而且周跑量低于20公里，每次要拉伸8-10分钟，这个结论太不精确了，周频次和单次进行了关联，而且这个拉伸时间没说清楚跑前拉伸和跑后拉伸，常识来看，这两种拉伸的作用是不一样的，而且跑前更多是动态拉伸、跑后是静态拉伸。
使用deepresearch功能，可以发现，这个功能等同于deep think + deep search。也就是将任务拆分成多个子问题，在每个子问题过程中实时查询互联网，然后整合成一份研究报告。

附件

ChatGPT, deep seek可以上传文档，秘塔搜索也可以。上传的文档相当于外挂的知识库，大模型可以随时进行访问。

在大模型的应用中，有一个很流行的应用叫做rag，也就是检索增强生成技术，其原理也是通过上传外置的文档，对其进行嵌入和向量存储，实现长期记忆。用户可以通过对话方式，结合向量搜索，检索出文档的相关信息，然后将这两部组合成新的提示词给大模型处理。

和搜索模式差不多，只不过数据源变成了静态内部资源，而不是开放的互联网。

今天发现秘塔有知识库外挂功能，可以试试。

alt text

不过我一般不会上传整本文档对话式阅读，我觉得幻觉太严重了。我喜欢直接看文档，看到不懂的时候复制一大段文字，让大模型解释下。

我的观点和视频里的Andrej一致，现在看书尽量不要自己一个人看，用上AI提升效率。

多模态

除了对话，大模型还可以解析生成图片、音频、视频歌曲等内容。

这些我用的不多，没什么好讲的。

不过我除了上面提到的AI产品，我还经常用别的，比如写代码用cursor，懒得打字的语音转文字的大模型用flow，比输入法内置的强多了。还有notion AI，除了用notion写文档的improve writing，我还有一个工作流是这样的：视频太长不想看，下载字幕，然后贴在notion文档上，用notion AI进行内容优化，英文还可以翻译成中文，基本和原视频内容一样。

总结

大模型百家争鸣，产品形态很多，鉴于大模型还是存在很多幻觉，我们最好还是同时使用多个大模型工具，对比不同的结果，然后自己做判断和取舍。

要时刻意识到自己用的是哪个具体的模型和功能，根据你的具体任务做合适的搭配。

最后我要疯狂下，我的生活离不开大模型了，I don’t need boyfriend, my AI friend knows everything.

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。