激烈竞争下OpenAI发布最新推理模型,新增图像思考、工具使用能力

蓝鲸新闻 4 月 17 日讯(记者 朱俊熹)当地时间 4 月 16 日,OpenAI 发布最新的推理模型 o3 和 o4-mini。OpenAI 表示,这是其 " 迄今为止发布的最智能的模型 ",在智能性和实用性方面设定了全新标准。
据 OpenAI 介绍,o3 是其最强大的推理模型,在数学、编码、科学、视觉感知等领域的表现都超过了前代 o1、o3-mini 模型。" 它非常适合处理需要多方面分析、答案可能不是立即显而易见的复杂查询。"o4-mini 则是一款经过优化的小型模型,旨在提供快速、经济高效的推理。
在 o3 开发过程中,OpenAI 称发现大规模强化学习呈现出与 GPT 系列预训练相同的趋势,即 " 计算量越大,性能越好 "。OpenAI 在训练计算量和推理过程中的思考方面都提升了一个数量级,看到了明显的性能提升。通过强化学习,OpenAI 还训练两个新模型使用工具。
最新的推理模型 o3 和 o4-mini 能够组合使用 ChatGPT 中的所有工具,包括网页搜索、图像生成、使用 Python 分析数据等。在 OpenAI 提供的示例中,当用户询问电池技术的突破对电动汽车的影响时,o1 模型在推理 5 秒后给出了文字、代码片段为主的回复,而 o3 模型经过 40 秒的推理时间,多次使用搜索功能,除文字外还能直接生成图像和图表。

图片来源:OpenAI
相较于前代推理模型,新模型在视觉推理方面也取得突破。o3 和 o4-mini 不仅可以 " 看到 " 图像,还能够用图像来思考,将其整合到思维链中。例如,当用户上传一张倒着拍的手写笔记照片时,模型在推理过程中能够借助工具,对图像进行缩放、旋转或裁剪,最终识别出笔记上的手写内容。

去年 9 月,OpenAI 率先推出推理模型 o1,引领了大模型范式的转变。自那以来,全球许多大模型厂商都发布了自己的推理模型,包括谷歌 Gemini 2.5、Grok 3,以及国内的 DeepSeek-R1、通义千问 QwQ-32B 等,对 OpenAI 形成了追赶。3 月底,阿里通义也推出了视觉推理模型 QVQ-Max,同样主打能结合图片、视频信息进行分析和推理。
激烈的竞争让 OpenAI 对新模型的发布更为迫切。据英国《金融时报》上周报道,OpenAI 一直在推动尽早发布 o3 模型,使得员工和第三方组织仅能在几天时间内,对模型性能和风险进行安全评估。而 2023 年发布的 GPT-4 模型,经过了 6 个月的评估。OpenAI 强调,已对 o3、o4-mini 两个模型进行了至今最严格的安全压力测试。
事实上,o3 模型原本并不在 OpenAI 的预期路线图中。2 月中,OpenAI CEO Sam Altman 曾在社交平台 X 上表示,将不会单独发布 o3 模型,而是会将 o3 的技术集成到下一代 GPT-5 模型中,预计在几周或几个月内推出。Sam Altman 曾多次抱怨,算力的限制导致公司不得不推迟新模型的发布。今年 3 月 OpenAI 完成 400 亿美元的新融资后,他终于表示 " 不再受到计算限制 "。
OpenAI 称,o3 和 o4-mini 的发布反映了其模型的发展方向:将 o 系列的推理能力,与 GPT 系列的对话能力、工具使用能力相融合。" 通过统一这些优势,我们未来的模型将支持无缝、自然的对话,同时进行主动的工具使用和高级问题解决。"