
最近,中国科学院自动化研究所的神经计算与脑机交互课题组,与脑科学与智能技术卓越创新中心联手,通过行为实验和神经影像分析,首次证实多模态大语言模型(MLLMs)能够自主形成与人类相似的物体概念表征系统。此项研究不仅为人工智能的认知科学开辟了新领域,还为实现类人认知结构的人工智能系统奠定了理论基础。相关成果已发表在《自然·机器智能》期刊上。
首次绘制AI大模型的“概念地图”
人类具备将自然界中的事物进行概念化的能力,这被认为是智力的核心。当我们看到“狗”、“汽车”或“苹果”时,不仅能识别它们的物理特性(如大小、颜色、形状等),还能够理解它们的功能、情感价值和文化含义——这种多维度的概念表征是人类认知的基石。
随着像ChatGPT这类大语言模型(LLMs)的迅速崛起,一个根本性的问题开始浮出水面:这些模型能否从语言及多模态数据中形成类似人类的物体概念表征?
传统的人工智能研究主要集中在物体识别的准确性上,却鲜有讨论模型是否真正“理解”物体的含义。论文的通讯作者何晖光研究员强调,尽管现有的AI可以区分猫和狗的图像,但这种“识别”和人类对猫狗的“理解”之间的本质差异仍待进一步探讨。
研究团队从认知神经科学的经典理论出发,设计了一种结合计算建模、行为实验和脑科学的创新方法。研究中采用了经典的“三选一异类识别任务”,要求大模型与人类从包含1854种日常概念的物体概念三元组中选择出最不相似的选项。通过对470万次的行为判断数据进行分析,团队首次绘制了AI大模型的“概念地图”。
实验范式示意图。a,物体概念集及其语言描述的图像示例。b-d,分别展示 LLM、MLLM 和人类的行为实验范式与概念嵌入空间。
AI的“心智维度”与人类的相似之处
研究者从庞大的大模型行为数据中提取了66个“心智维度”,并为这些维度赋予了语义标签。研究表明,这些维度具有高度可解释性,并且与大脑中负责类别选择的区域(如处理面孔的FFA、处理场景的PPA、处理躯体的EBA)的神经活动模式存在显著相关性。
此外,研究还对比了多个模型在行为选择模式上与人类的一致性。结果显示,多模态大模型(如 Gemini_Pro_Vision、Qwen2_VL)在一致性方面表现更为优越。同时,研究发现人类在决策时更倾向于结合视觉特征与语义信息进行判断,而大模型则更依赖于语义标签和抽象概念。
该研究表明,大语言模型并非“随机鹦鹉”,其内部确实存在与人类对现实世界概念类似的理解。
论文的第一作者为自动化所副研究员杜长德,何晖光研究员为通讯作者,主要合作者还有脑智卓越中心的常乐研究员等。该研究得到了中国科学院基础与交叉前沿科研先导专项、国家自然科学基金、北京市自然科学基金项目以及脑认知与类脑智能全国重点实验室的支持。
原标题:《AI可自发形成人类级认知!大模型并非“随机鹦鹉”,心智维度与人类似》
栏目主编:任荃
Please specify source if reproducedAI逐渐迈向人类认知!揭示大模型背后的心智秘密 | AI工具导航

