文章

标题:人类的创新有多少可以被 AI 预测

概要:文章介绍了名为“Mind Bridge”的探索性项目,旨在探索AI在情感和联想推理方面的能力,特别是大模型是否能在与人类相似的上下文中进行沟通,产生正确的联想推理和同理心。项目通过文本摘要任务来实验和评估AI的表现,并从流畅性、连贯性、一致性、相关性四个维度进行评价。

感想:这篇文章的推演过程很值得学习,类似一个迷你学术研究。但是存在一些问题:

  1. 没有准确定义“联想”是什么

  2. 全文没有涉及到“同理心”的验证,可以去掉

  3. split和associate的prompt设计存在问题

    1. split中的”infer”是否是联想
    2. split中的infer和summary作用顺序不明确,是顺次运行,还是同时运行,无法确认infer the full articleprovide a summary的影响
    3. associate和split的设计没有保持“控制变量法”的原则,比如存在了两种联想:imagine and infer ,split中存在了infer联想(此处假设infer是联想的一种);associate中的use your understanding和split中的Based on your human knowledge and understanding表达不一样,会不会让LLM的“知识库”不一样。
  4. associate用了两个prompt,这个差异是否会影响对比的结果

  5. 实验目的和实验设计不自洽。实验目的是探讨具备智能和常识的大模型,能否产生正确的联想推”,这个实验内容对比的前提是“人具有智能和常识,可以产生正确的联想推理”。实验方式应该是:

    1. 保持前提:假设人和AI有用一样的智能和同一份常识
    2. 输入信息
    3. 联想
    4. 输出信息
    5. 评估信息

    因为我们无法模拟人这一部分,所以建立了这个basic基准,假设提供的一篇文章是完整的常识,省区联想过程,直接给它联想的产物,是原模原样的文章,评估对象是summary。Split Only不存在联想;假如infer就是联想,那Split有联想,但是联想产物是隐式的,也就是没有明显得让它基于联想的产物summary;Associate有联想(联想形式是image and infer),联想产物是显式的,summary也是基于联想的产物进行评估,但是没有保证相同的常识,常识背景在切分中丢失了。