大模型物理推理能力仅为人类一半 李德毅院士团队用认知物理学撕开AI”伪装”
2025年12月5日,苏州”大模型与决策智能大会”现场,当刘玉超研究员展示GPT – 4o在物理推理测试中仅获得40%准确率,而人类专家达到90%时,全场一片哗然!这个由李德毅院士团队公布的数据,无情戳破了大模型”无所不能”的神话。
这位中国工程院院士,认知物理学的开拓者,早在2000年就预言:”机器认知永远无法替代人类认知的底层逻辑。”
如今,他带领团队用”物质、结构、能量、时间”四要素构建的评估框架,正在重新定义人工智能的发展方向。
物理推理暴露大模型”致命伤”
在PhysiCo基准测试中,研究人员设计了一个简单实验:向GPT – 4o、Gemini 2.0等顶级大模型展示一组网格图,要求它们判断液体混合过程是正向还是反向播放。
结果令人震惊!强化学习前的模型自信地给出错误答案,坚称”粉色粉末扩散是正向过程”;经过训练后虽然纠正了判断,却无法解释”容器中粉末量增加”这一关键物理证据。
更严峻的差距出现在高阶认知任务中。腾讯联合团队开发的PhysiCo – Core测试显示,即使是最先进的o3 – mini – high模型,在抽象物理概念理解上也落后人类40%。当研究人员用网格图替代自然语言描述抛物线运动时,所有大模型的准确率暴跌至随机水平。
“这不是能力问题,而是本质差异。”李德毅院士在接受采访时强调,”大模型就像背熟菜谱却不会做菜的厨师,能精准复述公式却不懂物理意义。”团队开发的”四要素评估矩阵”揭示了残酷真相:当前AI系统在”结构认知”和”时间感知”维度得分不足30分(满分100),而这正是人类认知的核心优势。
四要素框架破解机器认知密码
“认知物理学的本质,是找到人类与机器认知的’公分母’。”李德毅院士在《认知物理学基础》中提出的物质、结构、能量、时间四要素,正在成为评估AI的黄金标准。
物质对应硬件基础,就像人类的大脑神经元;结构是算法架构,类似大脑皮层的神经网络连接;能量表现为计算资源,如同人体消耗的葡萄糖;时间则体现为动态学习过程,这恰是大模型最薄弱的环节。
为了让普通人理解这个复杂框架,团队举了个生动例子:”如果把大模型比作厨房,GPU是物质,Transformer架构是结构,电力是能量,那么持续学习能力就是时间。现在的AI就像没有时钟的厨房,永远做不出’时效性’的认知佳肴。”
这个评估体系已经在军事指挥、医疗诊断等关键领域应用。在某次作战模拟中,基于四要素设计的动态评估系统,成功预测了某商业大模型在”敌情判断”任务中的认知偏差,准确率达82%。
人机协同开启认知新纪元
在苏州实验室,一幅未来场景正在浮现:白发研究员与蓝色机器人并肩站在虚拟黑板前,前者手绘着量子纠缠的示意图,后者实时计算着粒子轨迹。
这不是科幻电影,而是李德毅团队打造的”认知互补实验室”日常。
“机器的暴力计算 + 人类的创造直觉 = 认知革命。”院士的这句话被刻在实验室墙上。他们开发的”认知螺旋”系统,已经实现工程师与AI的深度协同:人类提出”用拓扑势分析数据场”的创意,AI则在0.3秒内完成10万次模拟验证。
这种协同效应在工业界产生惊人效益。某汽车厂商采用该框架后,自动驾驶算法的研发周期缩短40%,而关键安全指标提升27%。”就像航海时代的罗盘与望远镜,缺一不可。”项目负责人如此评价。
李德毅院士团队的研究,不仅揭示了当前AI的真实水平,更指明了未来方向。当大模型在物理推理中折戟沉沙时,我们终于明白:真正的智能革命,不在于机器多像人,而在于人机如何构建”认知共同体”。
正如院士在报告结尾所言:”机器越智能,人类越需要回归认知的本质。在物质与能量的世界里,结构与时间的舞蹈,才刚刚开始。”这场由中国科学家引领的认知物理学革命,或许正在为人工智能打开全新的大门。
