实锤了: GPU越多, 论文接收率越高、引用越多

机器之心报道

机器之心编辑部

在过去三年里,AI 领域取得了显著进步,这一飞跃主要得益于基础模型的发展。这些模型在大规模多模态数据上进行训练,并在公开发布后取得了巨大成功。

然而,基础模型的研究需要大量的数据、算力和人力资源。这一问题引发了广泛关注与讨论,更大的资源获取是否会直接带来更有影响力的研究成果,例如更多的论文发表或更高的引用量。

这一问题的答案对于资源分配策略、研究方向的优先级设定,以及如何保障基础模型研究的公平与可持续参与,都具有重要意义。

然而,由于缺乏统一的资源披露标准,研究成本往往难以量化。在缺乏全面公开的情况下,研究经费最直观的衡量方式,通常是购买或租用硬件(如计算集群或芯片)的具体成本。当然,研究还包括软件、云存储服务以及专业平台等其他开支。

在这些资源中,GPU 是一个尤其关键的指标,因为它是一种供应量有限、受严格控制的资源。

在本文中,来自 MIT、剑桥等机构的研究者研究了硬件资源与 AI/ML 领域顶级会议论文发表之间的关系。他们重点考察了两种计算能力指标:GPU 数量和 TFLOPs(每秒浮点运算次数),并将这些数据与 2022 至 2024 年间共 34,828 篇录用论文进行关联分析。

本文共识别出 5,889 篇基础模型相关论文,并发现 GPU 获取能力越强,其在八个顶级会议中的论文接收率和引用量也越高。

此外,本文还对 312 篇论文的 229 位作者进行了问卷调查后发现:

大多数基础模型论文由学术界研究者撰写(共 4,851 篇),而产业界研究者的论文数量相对较少(1,425 篇);

大多数论文使用的是开源模型(如 LLaMA),其次是闭源模型(如 GPT);

GPU 使用信息在论文中很少被披露,这表明当前亟需制定统一的计算资源报告规范,以提升研究的透明度与可复现性。

论文标题:THE ROLE OF COMPUTING RESOURCES IN PUBLISHING FOUNDATION MODEL RESEARCH

计算资源识别方法

研究者收集了 2022 年至 2024 年间、八个顶级机器学习会议上被接收的论文(2025 年 3 月之前已可获取),包括 NeurIPS、ICLR、ICML、COLM、EMNLP、ACL、NAACL、EACL。

采用的方法是:在论文标题或摘要中搜索关键词来识别与基础模型(FM)相关的论文。最终在总计 34828 篇论文中,挑选出了 5889 篇与 FM 相关的已接收论文。此外收集了同期被拒稿或撤稿的 ICLR 与 FM 相关的论文,共计 613 篇,用于对比分析。

在完成论文标题和摘要的整理后,研究者使用 GPT-4o mini 将每篇论文分为三个类别,即领域(Domain)、阶段(Phase)和方法(Method)。这些类别的定义见下表 1。

更进一步地,研究者通过系统 API 从全部 5889 篇已接收论文中收集结构化信息,包括文章 ID、标题、作者信息(姓名、人数及所属机构)、发表信息(年份、会议、接收或拒稿状态、论文链接、评审意见和摘要)。对于系统 API 中缺失的信息,研究者使用 GPT-4o mini 处理论文 PDF,以提取资深作者的所属机构、GPU 使用情况、数据集描述以及资助信息。

在调研中,118 所机构的研究者参与了本次调查,包括了 267 名学术界一作和 36 名产业界一作,最终共有 229 位 FM 论文的一作(包括 312 篇论文)提供有效反馈。当论文中未记录计算资源使用情况时,参与者需在调查中自行报告相关信息

图 1 (B) 展示了不同年份和会议中有效 GPU 类型的比例,以及各会议作者和审稿人检查清单中是否包含报告计算资源使用情况的相关指南。图 1 (C) 展示了由 GPT-4o 自动抓取的数据与论文作者自报数据在 GPU 使用量与 FP 16 计算性能(TFLOPS 16)上的差异。

为确保提取的 GPU 信息准确性,两位 FM 研究者在盲评条件下独立检查了 312 篇论文,并与 GPT-4o mini 的提取结果进行对比。研究者交叉比对了 GPT-4o mini 提取的信息、人工标注结果以及论文一作自报的 GPU 数据。

结果显示:在被调查的 312 篇论文中,288 篇自报了 GPU 数量,292 篇自报了 GPU 类型,281 篇自报了 GPU 使用时长;另有 24 篇使用了非 GPU 计算资源(如 TPU、NPU 或 CPU)。

不过,两位 FM 研究者发现仅有 172 篇论文中包含 GPU 数量信息,141 篇包含 GPU 类型信息,249 篇包含 GPU 时长信息。GPT-4o mini 仅从 116 篇论文中成功提取到 GPU 数量,与作者报告相比存在 59.7% 的缺失率。GPU 类型与 GPU 时长的缺失率也较高,分别为 48.3% 和 88.6%。

结果

基础模型研究呈爆炸式增长

从 2022 年到 2024 年,基础模型的研究在广度和深度上都经历了显著增长。

一个直观的体现是,在八个顶级 AI 会议中,基础模型相关论文的占比迅速攀升:

2022 年: 2.07%

2023 年: 10.29%

2024 年:飙升至 34.64%(图 A)

尤其在 NLP 领域,这一趋势更为明显。在 COLM、EMNLP 和 ACL 等专业会议上,基础模型论文的比例甚至超过了 ICLR、ICML 和 NeurIPS 等综合性机器学习会议。

从研究方向来看,与推理相关的论文增长最快。从研究类型来看,算法和实证研究的增长速度超过了数据集、基准测试和工具包等类别(图 B)。

有趣的是,尽管论文数量激增,但单个项目使用的 GPU 数量保持相对稳定。无论是已发表的论文还是待发表的研究,大多数项目使用的 GPU 数量集中在 1 到 8 个,其中 1 到 4 个 GPU 的配置最为常见,占据了约一半的比例(图 C)。不过,考虑到目前 GPU 的采购周期越来越长,这一趋势未来是否会变化,值得我们持续关注。

工业界与学术界共同引领研究浪潮

基础模型的研究延续了计算机科学领域产学研紧密结合的传统。

数据显示,学术界贡献了更多的论文总量,但顶尖的工业界实验室在单一机构产出上表现突出。具体来看:

学术界: 611 个机构共发表了 4851 篇论文。

工业界: 163 个机构共发表了 1425 篇论文。

其中,谷歌和微软是论文产出最多的两个单一实体,紧随其后的是清华大学、Meta 和斯坦福大学。

值得注意的是,两大阵营的研究效率相当。工业界研究者人均发表 8.72 篇论文,学术界人均发表 7.93 篇。这表明,基础模型的研究高度集中在少数能提供强大算力支持的顶级学术和工业机构中。如果获取大规模算力的门槛持续提高,这种集中化趋势可能会进一步加剧。

从国家层面看,美国和中国在基础模型研究产出方面处于领先地位(图 B),这可能与两国在高等教育和人工智能领域的长期投入有关。

开源模型成为研究的主流选择

在众多模型中,以 LLaMA 系列为代表的开源权重模型是研究中使用最频繁的(图 C)。

这一现象至关重要。虽然像 GPT 系列这样的专有闭源模型因其卓越的性能和便捷的 API 接口,在研究中仍占有一席之地,但开源模型凭借其高度的灵活性和可访问性赢得了研究社区的青睐。研究人员可以基于开源模型进行微调、领域适配和深入的基准测试,而这些操作在闭源模型上通常难以实现。

GPU 使用情况:NVIDIA A100 成为核心算力

在具体的 GPU 类型上,NVIDIA A100 是基础模型研究中使用最广泛的核心,并且排名前十的 GPU 均来自 NVIDIA 家族(图 3D)。

进一步分析发现,算力资源的使用并非均匀分布:

研究阶段: 专注于预训练的研究,其 GPU 使用数量显著高于侧重于后训练或推理的研究(p<0.001)。

其他维度: 在不同机构、应用领域或研究方法之间,GPU 的使用量没有表现出统计学上的显著差异。例如,安全相关研究的 GPU 使用量中位数较低,而工具包开发研究的使用量较高,但这些差异并不显著(图 D)。

从论文的研究重点来看:

47.4% 关注算法开发。

86.4% 集中在 NLP 领域,仅有 5.7% 涉及 CV。

48.7% 的论文研究推理过程,远超预训练(13.3%)。

政府是基础模型研究的最大资助方

通过分析论文中披露的资金信息,发现政府是基础模型研究最主要的资助来源(图 4)。在提供了资助信息的论文中:

85.5%(848 篇)获得了政府资助。

29.3%(291 篇)获得了企业资助。

10.3%(102 篇)获得了基金会资助(图 4A)。

有趣的是,一个国家的人均 GDP 与其资助的论文数量之间没有必然联系(图 4B)。这表明,机构的支持力度和相关政策,比单纯的国家经济实力更能影响基础模型的研究产出。(注:仅有 15.3% 的论文披露了详细的资助信息。)

研究产出与影响力:算力比 GPU 数量更关键

一个典型的基础模型研究项目是怎样的?数据显示,一篇被接收的论文,通常有 5 名作者,使用 4 个 GPU,项目平均持续约 5 个月。

进一步探究了计算资源与研究成果(论文数量和引用量)之间的关系,发现了更深层的规律:

对于产出(论文数量): 单纯的 GPU 数量与论文产出不成正比。然而,以 TFLOPs(每秒万亿次浮点运算)衡量的总计算能力,与论文产出呈现出更强的正相关性,尤其是在工业界(图 4C)。这说明,决定研究产出效率的,是高质量的计算基础设施,而不仅仅是 GPU 的堆砌。

对于影响力(引用次数): 同样,TFLOPs 比 GPU 数量更能预测一篇论文的引用潜力(图 4D)。拥有更强算力支持的机构,其研究成果往往能获得更多引用。

尽管如此,算力并非决定性因素。许多高引用论文同样来自计算资源相对有限的机构,证明了研究影响力是由多种因素共同决定的。

论文接收与否:资源多少并非决定性因素

更多的 GPU 或更强的算力,能提高论文被接收的概率吗?

研究者对 ICLR 会议 2022-2024 年的数据进行了分析。结果发现,平均而言,被拒稿的论文确实比被接收的论文使用了略少的 GPU、略低的 TFLOPs 和规模略小的作者团队。

但是,两者在资源使用上的分布情况非常相似,差距微乎其微。这与顶级会议的审稿指南相符,即审稿人更应关注研究的新颖性、清晰度和贡献,而非其使用的资源多寡。(注:由于只有 ICLR 公开了被拒稿论文的数据,这个结论的普适性还有待更多数据验证。)