(通讯员肖宇凡)4月18日下午,科学计量学与信息计量学最高奖普赖斯奖得主、英国谢菲尔德大学教授Mike Thelwall在我院412会议室作“How Effective are Large Language Models for Research Quality Evaluation?”学术报告,介绍其团队最新研究成果,揭示了大语言模型在科研评价领域的应用潜力与风险。我院张琳教授主持报告会。

Mike Thelwall介绍了近年来以ChatGPT、Gemini和DeepSeek为代表的大型语言模型在科研评价领域的应用潜力。基于英国REF2021框架,以原创性(Originality)、严谨性(Rigour)、科学与社会影响力(Significance)为核心标准,Mike Thelwall通过配置ChatGPT和Gemini模拟专家评审流程,测试其对18.5万篇研究论文的评估效果。结果显示,虽然模型单次打分有波动,但通过多次运行取平均,其评分稳定性和可信度都有明显提升,表明该模型能部分捕捉研究质量特征;在图书情报学等大部分学科,ChatGPT的评估结果优于传统引用指标。
Mike Thelwall探讨了大语言模型在科研质量评估中存在的风险。他使用ChatGPT评估虚构论文《Do squirrel surgeons generate more citation impact?》,结果模型仍给出四星评级,未能识别“松鼠会做手术、写科研论文”这一荒谬性;但当被问及“松鼠能写论文吗”时,该模型却能果断否定,凸显其常识推理与逻辑匹配并存的局限性。在另一项研究中,Mike Thelwall系统检验了ChatGPT在评估已撤稿论文时的表现,结果发现该模型几乎完全忽视了撤稿信息,依然对错误或失实结论给出积极评价,存在严重的“信息幻觉”风险。面对217篇已撤稿或存疑论文,该模型未能识别任何撤稿信息,仍对大多数论文给出中高评价;在针对61条撤稿结论的问答中,也有近三分之二的回答倾向于肯定失实内容。
Mike Thelwall强调,大语言模型虽为科研评价带来新思路,但其应用仍需谨慎。研究发现ChatGPT对已撤稿论文毫无“失效”警示,易将错误结论当作可信知识;若广泛采用,还可能使研究者刻意迎合大语言模型、引发上传侵权及单次打分不稳等问题。Mike Thelwall建议,开发者应将“撤稿检测”纳入模型训练与审核,用户在引用大语言模型产出前务必核实来源,并保留专家终审把关。
活动过程中,师生互动热烈,现场气氛活跃。Mike Thelwall热情回应了师生的提问,与会者围绕大语言模型与传统评估方法(如同行评审与引用指标)的差异,以及大语言模型的应用伦理与保障举措等议题展开了讨论。

杭州电子科技大学中国科教评价研究院执行院长丁敬达教授、常务副院长王琳教授,中国科学院武汉文献情报中心马廷灿研究员,我院赵蓉英教授、安璐教授等五十余人参加讲座。