这几天看了墨友笔记分享的一个关于如何使用大模型的视频:
https://www.bilibili.com/video/BV1X893Y8E5Y/

(标题是原youtube视频的热评)

看完后很有收获,所以写下这篇文章。

现在国内外有很多大模型相关的产品,比如deep seek、腾讯元宝、kimi等国内大模型,ChatGPT、Claude、Gemini等国际大模型。这些模型大看有很多相似功能,让我们日常使用中有很多选择。

我最常用的大模型有ChatGPT, deep seek, 元宝,grok, claude,这篇文章主要结合我自己的日常使用经验,以及看完这个视频学到的内容,给大家分享下如何更好地使用大模型。

普通对话能力

和大模型对话是我们日常生活中最常使用的功能,比如打开deep seek问”一年有多少季节“这个问题,大模型很快会给出一年有4个季节的回答。

alt text

这种对话对我们人类来讲,理解非常简单,我们首先通过听觉获取到声音信息,这个信息会调动大脑的知识库,在我们大脑进行语义分析,然后用嘴回答。

对于大模型来讲,信息的模式和传输时这样的:

人输入一段文本给大模型,大模型通过自己独特的识字方式”分词“,将这段文本分为一个个独立的token,接着token又一个个映射成一串数字编码。(大模型底层是计算机通过大数据训练出来的,所谓的训练就是各种复杂计算,所以文字最终转换成数字,对于大模型来讲很方便。)

alt text

知道了输入,我们可以大胆地猜测输出其实是输入的逆向形式,也就是大模型内部匹配到了合适的数字编号,然后把这些数字编号映射成token,最终翻译成文本。

alt text

知道了输入和输出,大模型内部机制对于我们还是个黑盒。所以很好奇,对于这些输入、输出的数字编码,大模型是怎么找到对应关系,建立联系的?

要回答这个问题,就得知道大模型是怎么来的。

大模型其实就是一个大型的神经网络,粗俗点讲,就是一个复杂函数的实体,输入一些变量,就会输出对应的值。大模型在大量的文本数据上进行了预训练,学到我们人类语言的模式和语义关联,比如春眠不觉晓和处处闻啼鸟的关联性。这些模式和关联关系出现在一起的概率很高,大模型就能通过概率大小趋向性做出选择。(对于大模型来讲,只有数字和计算逻辑,所有的抽象概念都是我们赋予的,为了更好理解和表达)

alt text

比如“一年有多少个季节”这段话,大模型已经知道了季节和春夏秋冬、四这些词的联系性很大,你输入这句话,这句话大概率就会紧接着“春夏秋冬、四”这些词。

所以,本质上,大模型的所有输出,都是基于大数据的统计分布在做预测,它并不真的“理解”事实真相,只是能给出比较像真相的回答。

所以,当你使用大模型的时候,就得时刻保持怀疑的态度。当然时刻保持怀疑的态度很累,这让我想起了一个有意思的事实:你从高楼跳下来不会死,到底死不死只有你跳下来落在地上那一刻才知道。

很多人都会忽略这个基本事实,默认认为从高处往下跳会死的,因为概率很大,正是因为这个极高的概率,让我们不会怀疑这个看法是否有问题。

如果大模型的输出可以达到99%的正确性,那我们还需要保持怀疑的态度吗?大部分的时候不需要,小部分事情具体看,如果这个事情你非常在乎,那就去怀疑他,从别的渠道获取更多信息,把主动权交给自己。

和大模型进行简单的对话,对我来讲,一些很有用的经验是这样的:普遍常识的问题,大模型回答是比较可靠的,比如问感冒、常见病;冷门问题,持怀疑态度

记忆

除了处理你来我去的对话,大模型也像人一样有记忆功能。这个可以理解为,我们最终输入给大模型token,除了本身的问题,还拼接上了之前的对话内容。

alt text

这种记忆也叫上下文窗口,类似人类的工作记忆,短暂且容量很小。所以在一个对话窗口中,如果你和大模型聊得越来越多,那工作记忆就会越来越满,这会导致两个问题:

  1. 分散模型的注意力,就像大脑认知负荷一样,会导致生成的回答准确性降低

  2. 工作记忆的token越堆越多,预测下一个token的速度会变得越慢,成本越高。

所以,我们用一个大模型的时候,如果换话题了,最好新开启一个对话框,清空工作记忆。

类似人的记忆机制,大模型也有长期记忆,这个后面会讲到。

推理思考

大模型的简单对话类似人的系统一,不用费力思考,遇见问题快问快答。人还有慢系统——系统二,大模型的设计也有系统二,也就是思考功能,可以进行推理。

为了演示大模型的思考功能,我用了下 Kimi 这个问题:“9.11 和 9.9 哪个更大?” 这是一个很经典的大模型智力测试问题。

alt text

我总共做了4个对比实验。实验A是普通对话,问题出现在“更大”有歧义,可能是数字的大小,可能是版本号的大小,可能是日期的大小。从分词来看,大模型是把小数点后面的整体堪称一个token了,这个token是数字,所以就会很容易进入数字的语义空间,然后进行大小的比对,最终给了我们9.11更大的错误信息。

alt text

实验B和C用了提示工程技巧,可以看到,因为有了别的信息约束”分步思考“和”数字“,不同的提示会影响模型的预测路径,大模型被引导到了有效的推理上,最终给出了正确的回答。

实验D用到了Kimi的复杂推理能力,思考链是这样的:

嗯,用户想知道9.11和9.9哪个更大。这是个比较两个小数大小的问题,应该是挺基础的数学知识吧,不过我得仔细思考步骤,不能出错

首先,我得想想怎么比较两个小数。我记得比较小数大小得从高位到低位依次比较对应的数位上的数字。先看整数部分,这两个数的整数部分都是9,那这部分相等,接下来就得看小数部分了。 小数部分第一位,9.11的小数部分第一位是1,9.9的小数部分第一位是9。

这时候我得判断一下1和9的大小关系,显然9比1大,那是不是可以直接说9.9更大呢?不过我得再仔细检查检查,别因为这一步就草率下结论。

我得回想一下小数的比较规则,小数的大小比较,整数部分相等时,确实是小数部分第一位大的那个数大。如果小数部分的第一位也相等,那就看第二位,以此类推。这里9.11的小数部分第一位1和9.9的小数部分第一位9,9比1大,所以按照规则,9.9是大于9.11的。

嗯,我觉得这样解释应该挺清楚的,用户应该能明白了,那我就可以这样回答用户了。

可以发现,kimi首先是对问题进行了基本的定义,选定了数字比较框架,决定用基础的数学知识;接着它提醒自己不能出错,说明有别的假设,但是可惜,他没有沿着别的假设推演,这是kimi的问题。后面就是数字逻辑的比较了,先比较整数,后比较小数。

Kimi有点不行,然后我们来用deep seek deep think 下:

Thought for 30 seconds
嗯,用户问的是9.11和9.9哪个更大。这个问题看起来简单,但作为刚开始学数学的小朋友来说,可能还是需要仔细分析一下的。

首先,我需要确认用户是不是真的在问数字的大小比较,还是有其他的含义。比如,有时候可能会有版本号的问题,比如软件版本9.11和9.9,但一般来说,版本号比较可能会用不同的方法,比如逐个部分比较,但这里用户可能只是单纯比较数值的大小。

首先,我应该把这两个数都转换成小数形式来比较。9.11其实就是9加上0.11,而9.9则是9加上09。不过,这里需要注意的是,小数点后的位数不同,一个是两位,一个是一位。通常比较小数的时候,我们可以将小数点后的位数补齐,方便比较。例如,把9.9写成9.90,这样就和9.11一样有两位小数了。

接下来,比较整数部分。两者的整数部分都是9,所以相等,这时候就要看小数部分。对于9.11来说,小数部分是0.11,而9.9的小数部分是0.90。这时候直接比较0.11和0.90,显然0.90更大,所以9.90比9.11大,也就是9.9比9.11大。 不过,可能有人会误以为小数点后的数字是按位数逐个比较,比如先比较十分位,9.11的十分位是1,而9.9的十分位是9,所以直接得出9.9更大,而不需要看后面的百分位。这也是正确的,因为在小数比较中,先比较高位,如果高位已经能决定大小,后面的位数就…

deep seek给出了可能是版本号比较的猜测,然后否定了。至少比kimi好点。

从思考链里总结出大模型推理的关键步骤分为以下四个部分:

  • 解析问题意图:首先,大模型会识别问题的结构和关键字,如“9.11”“9.9”“更大”等,然后判断它们可能的语义类别,比如数字、日期或其他上下文含义。

  • 多重假设推理:由于“9.11”和“9.9”可以有不同的理解方式(小数、日期等),模型会生成多个假设并进行推理。

  • 选择最优答案:根据上下文信息,模型会评估不同假设的合理性,并给出概率最高的答案。

  • 输出答案并解释:在更高级的推理任务中,大模型可能会进行“思维链”推理,逐步展示其推理过程,使答案更具可信度。

读到这里,如果你觉得自己思考路径不清晰,可以学习一下大模型的思考链,简单讲就是”定义问题类型,建立假设,再选择最优答案,再给出解释“这个套路。

相比于普通对话,思考链多了个思考步骤:<输入, 思考, 输出>,通过”定义问题类型,建立假设,再选择最优答案,再给出解释“这个路径将复杂的问题拆分成相对简单的小问题并分步骤处理,使模型能够聚焦于问题的特定部分,来提高输出质量和准确性。

简短问答、常规闲聊、事实性查询一般就用普通对话模式;复杂问题求解、解释性回答或者决策和规划可以用推理功能。

另外,在普通对话中,也可以精心设计下提示词,明确要求“请详细解释你的思考过程”或“请分步骤回答”,以触发模型使用链式思考,或者给出示例,明确想要的输出格式。对于复杂问题,设定背景信息和约束条件,能使模型更好地分解问题,从而输出更全面的推理过程。

关于推理模型,前段时间读到一篇有意思的文章
https://mp.weixin.qq.com/s/wS_Y-ctDvt-1EUCMACje6w

这篇文章指出了“关于模型的训练机制不同,需要设计不同的提示词”的观点。

普通对话的大模型是通过在预训练的基础上,加上了监督微调,依赖于大量的人工标注数据,在训练过程中依赖人为示例来指导推理。所以提示词的设计会明确地提供示例、步骤和推理过程的引导

推理大模型基于加强学习模型,具备通过推理自主得出结论的能力,因此我们的提示词不需要示例,避免过多地干预其推理过程,相反,而是提供清晰的问题描述和预期结果,让大模型自主选择最佳路径。

这里我用ChatGPT的o3 mini验证下:

alt text

我很不喜欢右侧的回答,结构层次的重点变成了病状,而不是具体病。读起来很奇怪,所以看来,确实是我们的提示词给大模型产生了很多限制。

搜索

很多大模型都有联网搜索功能,比如元宝、ChatGPT、perplexity。联网搜索相当于在你的输入拼接了实时请求互联网的信息,丰富了上下文工作区,注入了动态数据。

alt text

普通对话模式的大模型通过预训练获取了固定的知识库,这个知识库大概是半年前的,为了获取实时信息,搜索模式就可以访问互联网,实时检索最新的信息。开启了搜索,在回答我们的问题之前,大模型产品首先会查询外部信息来源,再结合语言模型的知识库来组织答案。

搜索功能让大模型从静态知识系统升级为一个可动态扩展的智能体,特别适合时间敏感任务,比如问实时新闻、科技前沿、今日热点等内容。

国外的搜索大模型有perplexity,国内有秘塔搜索,想了解国内的时候就用秘塔,想了解国外的就用perplexity.

alt text

ChatGPT第一个推出了deep research模式,需要200美元/月的会员才能享受到。我在微信公众号疯狂追howie和小能熊的使用分享,很带劲:

https://mp.weixin.qq.com/s/B6LrusPBE9YXhQbctZle1g

我最近确实在思考怎么用AI提高学习效率,因为我发现我大部分的时间,我至少得做4件事情:制定计划、搜集资料、执行计划和复盘反馈,很费时,我希望前两件事AI帮我代替做掉,如果AI足够可信的话,或许有一天我会用上deep research.

好在现在grok3有免费的可以使用。让我来测试下,墨友前几天问了问一个问题,我拿这个问题来做个deep research.

alt text

听说拉伸可以预防、减轻运动后的损伤,但有时候拉伸也会影响「懒人」坚持去长期跑步,请调研下跑前、跑后需要拉伸么?或者有没有数据支持每天跑多少公里以内、跑速多少以内但不拉伸对人体影响最小?

这是grok3的回答:我看了下,质量很高,结论很严谨,正反面支撑的参考依据都有,参考资料要么是医学相关、要么是运动相关,而且都是英文。

alt text

alt text

alt text

下面是perplexity的回答:参考资料选用太差了,都是搜狐BBC媒体资料,误导性强。但是说个别的,perplexity的AI驱动页面这个交互不错。

alt text

perplexity最终给了个关于运动量与拉伸时间的关系,鉴于他的资料都是搜狐的,我觉得很不可信。而且周跑量低于20公里,每次要拉伸8-10分钟,这个结论太不精确了,周频次和单次进行了关联,而且这个拉伸时间没说清楚跑前拉伸和跑后拉伸,常识来看,这两种拉伸的作用是不一样的,而且跑前更多是动态拉伸、跑后是静态拉伸。
使用deepresearch功能,可以发现,这个功能等同于deep think + deep search。也就是将任务拆分成多个子问题,在每个子问题过程中实时查询互联网,然后整合成一份研究报告。

附件

ChatGPT, deep seek可以上传文档,秘塔搜索也可以。上传的文档相当于外挂的知识库,大模型可以随时进行访问。

在大模型的应用中,有一个很流行的应用叫做rag,也就是检索增强生成技术,其原理也是通过上传外置的文档,对其进行嵌入和向量存储,实现长期记忆。用户可以通过对话方式,结合向量搜索,检索出文档的相关信息,然后将这两部组合成新的提示词给大模型处理。

和搜索模式差不多,只不过数据源变成了静态内部资源,而不是开放的互联网。

今天发现秘塔有知识库外挂功能,可以试试。

alt text

不过我一般不会上传整本文档对话式阅读,我觉得幻觉太严重了。我喜欢直接看文档,看到不懂的时候复制一大段文字,让大模型解释下。

我的观点和视频里的Andrej一致,现在看书尽量不要自己一个人看,用上AI提升效率。

多模态

除了对话,大模型还可以解析生成图片、音频、视频歌曲等内容。

这些我用的不多,没什么好讲的。

不过我除了上面提到的AI产品,我还经常用别的,比如写代码用cursor,懒得打字的语音转文字的大模型用flow, 比输入法内置的强多了。还有notion AI,除了用notion写文档的improve writing,我还有一个工作流是这样的:视频太长不想看,下载字幕,然后贴在notion文档上,用notion AI进行内容优化,英文还可以翻译成中文,基本和原视频内容一样。

总结

大模型百家争鸣,产品形态很多,鉴于大模型还是存在很多幻觉,我们最好还是同时使用多个大模型工具,对比不同的结果,然后自己做判断和取舍。

要时刻意识到自己用的是哪个具体的模型和功能,根据你的具体任务做合适的搭配。

最后我要疯狂下,我的生活离不开大模型了,I don’t need boyfriend, my AI friend knows everything.