DOI：10.19689/j.cnki.cn10-1361/h.20240105

如何测试ChatGPT的语义理解与常识推理水平?

引用

摘要：

ChatGPT等大语言模型在语义理解和常识推理方面表现优秀,其技术奥秘在于模型开发者在对词语进行向量表示时,遵循分布式语义学原理,采用了"嵌入"这种代数方法.但是,经典的测试语言运用等智能水平的"图灵测试",难以识别欺骗和回避等作弊手段,因此,计算机科学家设计了"新图灵测试",其中的威诺格拉德模式挑战与语言学关系密切.这一模式以代词消歧为测试点设计句子对和问题,但是经过大规模语料训练的语言模型可以凭借词汇上的统计相关性,而不是靠真正理解句子的意义来给出正确答案.为克服这一缺陷,学者们又发展出WinoGrande数据集,提高了数据的规模和难度,确保它们无法通过网络搜索等手段来得到正确答案.我们用威诺格拉德模式设计了无偏向双重句子对测试ChatGPT,展示了大语言模型在语义理解和常识推理方面已达到接近人类的水平.当然,从具身模拟假说来看,大语言模型不可能像人一样富有体验性地理解人类自然语言.最后,我们呼吁:语言学家应该积极参与构建WinoGrade测试集之类的工作,在人工智能时代扩展自身的学术研究领域.

关键词：ChatGPT、大语言模型、新图灵测试、威诺格拉德模式挑战、WinoGrande数据集

所属期刊栏目：9

分类号：H002

资助基金：启动研究基金;国家社会科学基金

在线出版日期：2024-01-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：49-63

英文信息展示

期刊专题