《自然》杂志研究: AI已能“洗稿”科研论文, 并成功躲避学术期刊查重
[文/观察者网王一]英国《自然》杂志网站9月23日报道称,一项研究发现,生成式人工智能(AI)工具正被用于科研论文“洗稿”,撰写出看似全新的“克隆版”研究,并已成功混入学术期刊。
这项9月12日发表在医学预印本平台medRxiv上的研究显示,研究人员对过去4年半内出版的112本期刊分析发现,这些期刊刊发的论文中有超过400篇论文经AI“洗稿”而成,并且证实它们足以绕过出版商的反抄袭检测系统。
该研究的作者指出,这种趋势背后很可能是个人投机者,甚至是代写、出售论文署名的商业公司“论文工厂”在利用公开数据库,借助AI大语言模型大规模生产低质量、缺乏科学价值的论文。
“如果任由其发展,这种AI驱动的方法可能会被套用到所有开放数据库上,制造出超乎想象数量的低质量论文,”没有参与这项研究的瑞士弗里堡大学药理学家乔鲍·绍博(CsabaSzabó)警告称,“这可能会打开潘多拉魔盒,学术文献可能被‘合成论文’彻底淹没。”
研究团队对美国“国家健康与营养调查(NHANES)”数据库进行了筛选,该数据库体量庞大,涵盖数千人的健康、饮食和生活方式数据。研究人员重点筛查“重复”研究,即那些重复探讨相同变量之间关联,只是换用了不同年份、不同性别或不同年龄段样本数据的研究。
他们对公共医疗数据库(PubMed)的检索发现,2021年1月至2025年7月期间发表了411篇“重复”研究。其中大多数是简单案例,涉及两篇几乎一模一样的论文,但有3项涉及6篇重复论文的研究,其中一些甚至在同一年被多次发表。
参与研究的英国萨里大学生物医学家马特·斯皮克(MattSpick)直言,这种情况“根本不该发生,对科研文献毫无帮助”。
斯皮克和他的同事们怀疑,一些人可能也在用AI来绕过期刊的查重机制。为了验证,研究团队让AI模型ChatGPT和Gemini改写他们发现的3篇高度重复的研究论文,结合NHANES数据生成全新的稿件。
结果是,仅需2个小时的人工修正,这些AI稿件就能顺利通过期刊常用的查重工具。当研究人员用大部分出版商使用的查重工具进行分析时,AI稿件的得分没有达到被编辑认为有问题的水平。
“我们震惊于它几乎立即奏效。”斯皮克指出,虽然AI生成的稿件确实存在一些错误,但其内容足以混淆视听,这使得区分真正基于公共数据库开展研究的学者和用AI故意制造论文的人变得更加困难。
英国爱丁堡大学公共卫生学者、《全球健康杂志》联合主编伊戈尔·鲁丹(IgorRudan)也认为,“这给编辑和出版商带来了全新的挑战”,“我们第一次尝试大语言模型时就预料到这会成为一个问题,而这份研究证实了担忧”。
早在7月,斯皮克就发出警告称,基于NHANES等开放数据集的低质量“流水线论文”激增,背后可能就是AI推动的。而此次分析发现,2022年ChatGPT正式发布后,重复研究的数量陡增。
美国斯坦福大学和其他机构的研究人员对论文预印本平台“arXiv”和“bioRxiv”的112万余篇论文分析发现,2020年至2024期间,计算机科学论文中使用AI大语言模型的比例高达22%。
这使得部分出版商被迫收紧政策。瑞士开放获取学术出版社Frontiers和美国公共科学图书馆(PLOS)均宣布对基于开放数据集的研究收紧编辑审查规则。
Frontiers研究诚信负责人埃琳娜·比卡里奥(ElenaVicario)坦言,AI驱动的重复研究对出版商构成了严峻、持续的挑战。
该出版社在过去4年中发表了132篇被点名的重复论文,占比32%。不过比卡里奥称,这些都发生在新编辑规则出台前。今年5月以来,Frontiers已拒绝了1382篇基于NHANES的投稿。
全球知名科研出版机构施普林格·自然(SpringerNature)发表的重复论文比例更高,达到了37%。其旗下开放获取学术期刊《科学报告》就刊发了51篇。
怀特补充说,该期刊编辑团队的工作重点是,在清除不道德和无意义研究的同时,确保真正有价值的成果得以发表,“我们对不当使用这些数据库感到担忧,并且一直在采取行动”。