MIT研究发现:大型语言模型缺乏对世界的连贯理解

心理分析

MIT的研究表明,尽管大型语言模型在特定任务上表现出色,如提供准确的导航路线,但它们并没有真正学习到关于世界的连贯模型。研究发现,这些模型在导航时虽然能生成合理的路线,但实际上并没有构建一个准确的城市地图。这表明,即使模型在某些特定环境中的表现良好,它们也可能在环境改变时迅速崩溃。研究人员开发的新指标显示,这些模型并未真正理解规则,并可能需要新的方法来构建能够捕捉准确世界模型的LLMs。

MIT研究发现:大型语言模型缺乏对世界的连贯理解

MIT研究发现:大型语言模型在理解世界上的局限性与挑战

在人工智能领域,大型语言模型(LLMs)的进步令人瞩目,它们在语言理解和生成任务上展现了惊人的能力。然而,根据麻省理工学院(MIT)的一项新研究,这些模型在理解世界方面存在显著的局限性,这为AI在现实世界中的应用提出了新的挑战。

LLMs的训练目标与实际应用

研究指出,LLMs的训练目标主要是预测文本中下一步可能出现的单词,而非形成对世界的连贯理解。尽管这些模型在特定任务上表现出色,但它们的这种能力是基于对大量文本数据的统计分析,而非对现实世界的真正理解。

纽约市街道导航案例

研究人员以纽约市街道导航为例,发现一种常见的生成式AI模型能够在提供逐步驾驶路线时达到接近完美的准确性。然而,当街道布局发生变化时,模型的表现迅速下降。这表明模型虽然能处理特定情况下的导航,但并没有形成一个准确的城市地图。

评估LLMs的世界模型

为了评估LLMs是否形成了对世界的连贯理解,研究人员开发了两项新指标:序列区分度和序列压缩度。这些指标旨在测试模型是否能够理解不同的状态及其差异,以及是否能够识别相同状态下的相似性。

不连贯的世界模型

研究发现,随机选择的Transformer模型比使用策略训练的模型生成了更准确的世界模型。这表明,在训练过程中看到更多潜在选择可能有助于模型形成更连贯的世界模型。

对LLMs应用的启示

这项研究对LLMs的实际应用提出了重要的启示。科学家在利用LLMs进行新发现时,必须考虑模型是否真正理解了它们所处理的世界。LLMs在处理规则明确且已知的问题时可能表现良好,但在规则部分未知或复杂的情况下,可能需要采用不同的方法。

未来研究方向

研究人员计划将评估指标应用于更多样化的问题,并探索现实世界中的科学问题。他们还希望解决规则部分已知的问题,并进一步研究LLMs在不同场景下的表现。

MIT的研究表明,虽然LLMs在语言理解和生成方面取得了显著进展,但它们在理解世界上的局限性不容忽视。这一发现对AI领域的未来发展具有重要的指导意义,提醒我们应更加谨慎地评估和利用这些模型。随着技术的不断进步,未来我们或许能够开发出更深入理解世界的AI系统。