斯坦福 AI 指数报告发布:2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍
4 月 7 日,斯坦福大学以人为本的人工智能研究所 (HAI) 发表了新的《2025 年人工智能指数报告》,多项数据统计表明:中美 AI 的差距正在缩小,AI 技术的创新速度是过去十年的数倍之快。
该报告总篇幅接近 450 页,主要亮点包括:
首先,报告指出,过去一年中美的 AI 投资都有了极大增长。其中,美国 AI 私人投资金额增长至 1091 亿美元,几乎是中国的 12 倍(93 亿美元)与英国的 24 倍(45 亿美元)。AIGC 创业的全球融资规模是 339 亿美元,相比 2023 年增长了 18.7%。
其次,AI 模型正在变得肉眼可见地高效。在高效小模型的驱动下,GPT-3.5 级别的模型推理成本从 2022 年 11 月到 2024 年 10 月已经下降 280 倍,硬件成本每年下降 30%。
同时,企业界在 AI 研究上明显领先学术界。报告指出,2024 年几乎 90% 的知名 AI 模型都是来自企业界,相比之下 2023 年是 60%。但尽管模型的参数规模在持续扩大,模型的性能差距却在缩小:数据显示,全球最顶尖的 AI 模型与排名第 10 的模型之间的性能差距在一年内从 11.9% 缩小到了 5.4%。
此外,去年的指数报告重点指出了闭源与开源 LLM 之间显著的性能差距,而在今年,这个差距被缩小至 1.7%。
AI Infra 突飞猛进
报告统计显示:每美元的人工智能性能已经大幅提高。一个相当于 GPT-3.5 的人工智能模型的推理成本,从 2022 年 11 月的每百万个 token 20.00 美元下降到 2024 年 10 月的仅每百万个 token 0.07 美元(Gemini-1.5-Flash-8B),在大约 1.5 年的时间里减少了 280 多倍。
Epoch 估计,固定性能级别的硬件成本每年下降 30%,这使得人工智能训练变得日益经济实惠、可扩展,并有助于模型改进。报告还称,机器学习(ML)硬件的能效随时间推移显著提升,每年约提高 40%。
根据 Epoch AI 数据,2024 年企业界贡献了 55 个知名 AI 模型,而同年学术界未产生任何知名模型。值得注意的是,企业和学术合作产生的模型数量正持续增长。过去十年间,源自产业界的知名 AI 模型占比呈稳定上升趋势,至 2024 年已达到 90.2%。
2024 年,主要贡献机构为 OpenAI(7 个模型)、谷歌(6 个)和阿里巴巴(4 个)。自 2014 年以来,谷歌以 186 个知名模型位居榜首,其次是 Meta(82 个)和微软(39 个)。在学术机构中,卡内基梅隆大学(25 个)、斯坦福大学(25 个)和清华大学(22 个)自 2014 年以来的模型产出量最为突出。
随着模型参数量的增长,AI 系统的训练数据规模也同步扩大。Meta 于 2024 年夏季推出的旗舰大语言模型 Llama 3.3,训练 token 量更是突破 15 万亿大关。
据 Epoch AI 研究显示,大语言模型的训练数据集规模约每 8 个月翻一番。这一指数级增长趋势与模型复杂度的提升形成协同效应,持续推动 AI 性能边界扩展。
Epoch 估计,重要 AI 模型的训练算力约每 5 个月翻倍一次,数据集每 8 个月翻倍,能耗每年增长,这一趋势在过去五年尤为显著。
OpenAI 当前最先进的 GPT-4o 基础模型,其训练算力高达 380 亿 petaFLOP。
这种资源门槛使得学术界难以企及,导致企业界持续主导 AI 前沿研发。尽管今年差距略有收窄(去年 AI 指数报告首次指出该趋势),但这一分化态势仍在延续。
2024 年 12 月推出 DeepSeek V3 模型引发了广泛关注,其核心突破在于:在实现顶尖性能的同时,所需计算资源显著低于多数主流大语言模型。下图对比了中美两国知名机器学习模型的训练算力,揭示出一个关键趋势:美国顶级 AI 模型的算力需求普遍远超中国同类产品。
据 Epoch AI 数据显示:
中国头部语言模型的训练算力增长自 2021 年底保持约 3 倍 / 年的增速
全球其他地区自 2018 年以来维持着 5 倍 / 年的增速水平
这一差距折射出两国在 AI 研发路径上的差异化选择:中国团队更注重算法效率优化,而国际同行则倾向于通过算力堆砌推动性能突破。不过值得注意的是,DeepSeek V3 的成功案例表明,计算效率的提升可能成为未来 AI 竞赛的新赛道。
但是,AI 指数的数据也验证了近年来的行业猜测:模型训练成本正呈现显著上升趋势。
2024 年,少数可估算模型之一 Llama 3.1-405B,训练成本高达 1.7 亿美元。训练成本的高升主要为以下三点因素:
竞争加剧导致企业减少训练过程披露,成本估算难度增加
训练成本与计算需求呈直接正相关
计算需求越大的模型,其训练成本呈几何级数增长
各个大模型性能差距缩小
2024 年 1 月初,领先的闭源模型性能超出顶级开源模型 8.0%。至 2025 年 2 月,这一差距已缩小至 1.7%。
这一快速进步主要得益于 Meta 在夏季发布的 Llama 3.1,以及随后推出的其他高性能开源模型,如 DeepSeek 的 V3 版本。
下图展示了截至 2025 年 1 月 Chatbot Arena 排行榜前十名模型的概况。值得注意的是,2023 年榜首模型与第十名模型的 Elo 技能评分差距为 11.9%。而到 2025 年,这一差距已缩小至仅 5.4%。
尽管思维链等推理机制的引入显著提升了大语言模型(LLM)的性能表现,但这类系统仍存在以下关键局限:
可靠性缺陷
无法稳定解决可通过逻辑推理验证正确性的问题(如算术运算、任务规划等)
面对超出训练数据规模的实例时表现尤为不佳
应用制约
严重影响系统的可信度评估
限制其在高风险场景(如金融决策、医疗诊断等)的应用可行性
OpenAI 发布的 o1 模型在 PlanBench 测试中,对于需要至少 20 步解决的复杂实例,o1 仅能完成 23.6%。
规划本质上是组合优化问题,解决长序列问题所需时间必然超过线性增长。这一特性解释了当前模型在复杂规划任务上的性能局限。
早期模型虽展现潜力,却存在明显缺陷:画质低下、缺乏音频支持、视频时长过短等(通常仅能生成 2-4 秒片段)。2024 年,这一领域迎来重大突破——多家科技巨头相继发布新一代视频生成系统。具体突破点如下:
视频时长从秒级突破至 20 秒级
分辨率实现高清 ( HD ) 标准
生成内容从 2D 拓展至 3D 领域
标志着文本 - 视频生成技术进入实用化阶段
2024 年成为人形机器人发展的关键转折点,具有类人形态和功能仿生的机器人实现多项突破。以 Figure AI 为代表的创新企业推出新一代通用人形机器人 Figure 02,其技术特征包括复杂任务执行、实现智能交互、支持 " 语音 - 推理 - 语音 " 闭环。
除 AutoRT 系统外,DeepMind 同期发布了 ALOHA(高级活动自主学习系统)和 DemoStart 两大创新平台。其中 ALOHA Unleashed 版本在机器人精细操作领域实现了重大突破,首次实现类人级精细动作控制,并证明了大模型 + 模仿学习的工程可行性。
大模型投资规模增长
2024 年 AI 总投资额增至 2523 亿美元,较 2023 年增长 25.5%。过去十年间,人工智能相关投资规模增长了近 13 倍。
下图展示了 2013 年至 2024 年全球企业人工智能投资的趋势,涵盖并购、少数股权、私募投资和公开募股。
2023 至 2024 年间,全球 AI 领域私募投资增长 44.5%,这是自 2021 年以来首次实现同比增长。
2024 年生成式 AI 领域共吸引 339 亿美元投资,较 2023 年增长 18.7%,达到 2022 年投资规模的 8.5 倍以上。值得注意的是,2024 年生成式 AI 投资占全部 AI 相关私募投资总额的比重已超过五分之一。
2024 年获得融资的 AI 企业数量跃升至 2049 家,较上年增长 8.4%。其中,生成式 AI 领域的新获投企业数量显著增加——全年共有 214 家初创企业获得融资,较 2023 年的 179 家和 2019 年的 31 家实现大幅提升。
2024 年数据显示,美国以 1091 亿美元投资额高居榜首,中国(93 亿美元)位列第二,仅为美国投资额的 8.5%,英国(45 亿美元)位列第三,投资规模相当于美国的 4.1%。
2024 年投资最集中的三大领域分别是:
AI 基础设施 / 研究 / 治理(373 亿美元)
数据管理与处理(166 亿美元)
医疗健康(110 亿美元)
其中,AI 基础设施、研究和治理领域的突出表现,主要得益于 OpenAI、Anthropic 和 xAI 等专注 AI 应用开发的头部企业获得的大额投资。
麦肯锡最新报告显示:
整体 AI 应用率从 2023 年的 55% 跃升至 78%,78% 受访企业表示已在至少一个业务职能中应用 AI 技术。
生成式 AI 应用呈现爆发式增长:2024 年应用率达 71%,较去年(33%)增长超一倍。该技术作为去年新增调查项目,首次纳入统计范围。
企业应用 AI 已实现降本增收双重效益,成本节约最显著领域为:服务运营(49% 受访企业报告成效),供应链与库存管理(43%),软件工程(41%)。
最新的微软职场研究表明:常规办公任务中,文档编辑效率提升 10-13%,邮件处理时间缩短 11%。专业岗位提升更显著——安全分析师任务完成速度加快 23%,准确率提高 7%。
销售团队响应速度提升 39%,同时转化率提高 25%。
在科研领域,材料发现速率提升 44.1%,专利申请数量增长 39.4%,产品原型产出增加 17.2%。
这些数据印证了 AI 在提升工作质量和效率方面的双重价值。
AI For Science 依然存在极高天花板
2024 年,AI 驱动的研究斩获最高荣誉——两项诺贝尔奖授予了人工智能领域的突破性成就。
Google DeepMind 的 Demis Hassabis 与 John Jumper 凭借 AlphaFold 在蛋白质折叠领域的开创性工作获奖。最新的 AlphaFold 3 已突破单一蛋白质结构预测,实现了对蛋白质与关键生物分子(DNA、RNA、配体、抗体)相互作用的精准建模。
John Hopfield 与 Geoffrey Hinton 因对神经网络的基础性贡献获物理奖。
AI 助力医学、生物学研究。研究人员采用定向进化方法,证明大语言模型能够生成在合成和实验适应度景观中均优于传统算法的蛋白质序列。
生成式 AI 模型 ProGen 通过设计功能性蛋白质序列,凸显了 AI 辅助蛋白质工程的潜力。同样,基于 Transformer 的 ProtT5 等模型利用深度学习直接从序列数据预测蛋白质功能与相互作用,推动了计算生物学发展。
公共数据库的扩展对 AI 在蛋白质科学中的应用至关重要,高质量的大规模数据集使 AI 模型能基于多样化的生物序列进行训练,增强预测能力。2019 年至今各公共蛋白质科学数据库的条目数量持续增长。然而,保障数据质量与避免模型偏差仍是持续挑战。
图像与多模态 AI 也在推动科学发现。冷冻电镜、高通量荧光显微镜与全玻片成像技术的进步,使科学家能高精度解析原子、亚细胞及组织层面的结构,揭示复杂生物过程的新机制。
随着高通量显微镜技术的兴起,视觉 - 语言模型及新兴的视觉 - 组学基础模型成为研究热点。显微镜基础模型数量随技术发展持续增加:2024 年光学显微镜模型从 4 个翻倍至 8 个。
2024 年生物科学中 AI 驱动的蛋白质研究中,功能预测(8.4%)居首,其次是结构预测(7.6%)和蛋白质 - 药物相互作用(3.0%)。
面向生物任务的 LLM 智能体开发热情提高。
随着 AI 系统在科学领域(尤其是生物学)的应用价值日益凸显,如何设计能够调用工具解决复杂任务的智能语言模型成为关键挑战。Aviary 为此提供了一个结构化框架,专门训练语言智能体应对三大高难度科学任务:
DNA 操作(用于分子克隆)
科研问题解答(通过检索科学文献)
蛋白质稳定性工程
在 Aviary 环境中,基线模型 Claude 3.5 Sonnet 因无法访问外部工具而表现受限,而集成到 Aviary 智能体框架中的模型在几乎所有任务中均显著优于基线。
该研究揭示了两大关键结论:
尽管通用 LLMs 在多数科学任务中表现良好,但结合领域专家知识对模型进行微调可进一步提升性能;
加速 AI 驱动的科研创新不仅依赖模型规模,更需通过外部工具交互实现能力拓展——这种「智能体化 AI」正成为新范式。
对于模型所需 token 量,临床 LLM GatorTron(820 亿 token)远少于 Llama 3(15 万亿 token),影像模型 RadImageNet(1,600 万图像等效 token)仅为 DALL-E(60 亿)的 1/375。
此外,临床场景 AI 应用潜力巨大。微软与 OpenAI 团队近期测试的 o1 模型以 96.0% 的准确率创下新纪录(较 2023 年提升 5.8 个百分点)。
LLM 临床知识能力持续提升(尤其是配备实时推理的 o1),但幻觉与多语言性能不一致问题仍存。
在诊断推理方面,使用 GPT-4 辅助的医师诊断准确率(76%)仅略高于传统工具组(74%);但 GPT-4 独立诊断准确率达 92%,较无 AI 辅助医师提升 16 个百分点(图 5.4.6)。尽管 AI 独立表现优异,诊断时间未显著缩短。后续需通过重构工作流、用户培训与界面设计,才能将孤立模型优势转化为临床协同效能。
在过去的五年中,对医学人工智能伦理问题的关注逐年增加。从 2020 年到 2024 年,与伦理和医学人工智能相关的出版物数量增加了四倍。
公众对 AI 时代更乐观
2024 年,67% 的受访者表示 " 对 AI 是什么有良好理解 ",66% 认为 "AI 将在不久的将来深刻改变他们的日常生活 "。
认为 AI 驱动的产品和服务 " 利大于弊 " 的全球人口比例略有上升,从 2022 年的 52% 增至 2024 年的 55%。
关于 AI 产品和服务的调查中,平均而言,中国受访者对 AI 的认知度、信任度和热情最最高。80% 的受访者表示 " 这些产品和服务让他们感到兴奋 "。相比之下,仅 58% 的美国受访者认为 "AI 将在未来 3-5 年深刻改变生活 "。
过去一年中," 信任使用 AI 的企业会保护个人数据 " 的受访者比例下降了 3 个百分点," 信任 AI 不会歧视或对任何群体产生偏见 " 的比例下降了 2 个百分点。
不过舆论也存在显著的地区差异。
亚洲和拉丁美洲的受访者更倾向于认为 AI 利大于弊。相比之下,欧洲和英语国家的受访者更为怀疑。仅 46% 的英国受访者和 39% 的美国受访者认为 AI 利大于弊。
今年的益普索调查新增了关于 "AI 如何影响当前工作 " 的问题。60% 的受访者认为 " 未来五年 AI 可能改变工作方式 ",36%(超三分之一)认为 "AI 可能在未来五年取代现有工作 "。
Z 世代(67%)和千禧一代比 X 世代和婴儿潮一代(49%)更倾向于认同 "AI 将改变工作方式 "。2023 至 2024 年,所有世代认同这一观点的比例均上升,增幅最大的是千禧一代和婴儿潮一代,可能表明代际间认知趋同。
雷峰网