小马拉大车 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模子名副其实!
萝莉抖音
萝莉抖音

伦理小说在线阅读

小马拉大车 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模子名副其实!

发布日期:2025-04-20 08:19    点击次数:144

小马拉大车 实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模子名副其实!

堪称" OpenAI 迄今为止最强模子"小马拉大车,o3/o4-mini 信得过才调究竟如何?

就在发布后的几小时内,网友们的第一波实测已簇新出炉。

最强推理模子 o3,即使遇上首位全职教导词工程师 Riley Goodside 的"刻意刁难",也顺利过关:

不错看到,濒临藏在一堆玩物里的手绘制表,它也能通过图像识别和推理才调正确解答。

而o4-mini当作一款专为快速、经济高效的推理而优化的小模子,在数学才调方面堪称强悍——

用时 2 分 55 秒,解决了最新的欧拉问题,何况该网友强调:

于今唯有 15 个东谈主唐突在 30 分钟内解决它。

与此同期,OpenAI 里面手艺东谈主员也默示,o3 的出现让他第一次萌发了将模子称为通用东谈主工智能(AGI)的念头。

眼见脑怒齐衬托到这儿了,那咱们还不得飞速望望更多实测后果(doge)。

网友实测 o3/o4-mini 初度带图深度念念考

最初,官方提到,o3 和 o4-mini 是 OpenAI 初度能将上传图像集成到念念维链中的模子——

这意味着,它们不错基于图像张开念念考。

比如有东谈主唾手上传一张相片,让 o3 来判断拍摄时辰和场地,而且条款能具体到舆图上的某一个点。

罢了令这位小哥诧异的是,其谜底和骨子情况之间的过失特别小:

场地仅出入 1000 英尺(约 305 米),时辰仅出入 2 分钟。

更特风趣的是,假如一张图上的小字看不清,通过扒念念维链还能发现—— o3 以至会我方"悄悄放大"。

难怪在针对复杂多模态谜题的 EnigmaEva 测试基准中,o3 能拿下 SOTA。

不外值得驻防的是,据自称 OpenAI 职工的网友爆料,固然基准测试罢了存在相反,但 o4-mini 骨子上是比 o3 更好的视觉模子。

该网友以至顺利建议民众:

在职何波及视觉的任务中使用 o4-mini-high 而不是 o3。

适值的是,在大多需要计较复杂数学题的带图测试中,民众竟明白取舍了 o4-mini 而非 o3。

除了一伊始提到的解答欧拉问题的例子,o4-mini 也被用来解读手艺图纸。

该网友默示,关于这种大多 AI 齐很难处罚的贫困,它一次就顺利了:

o4 mini(high)唐突分析该部件的尺寸并准确计较出正确体积。

编程才调

其次,两个新模子此次在编程才调上齐有一定进度升级,测试罢了标明:

其中 o3 High 取代谷歌 Gemini-2.5,拿下编程第一。

顺带 OpenAI 此次还开源了一个腹地代码智能体 Codex CLI——

它是一种聊天驱动的斥地边幅 ,唐突清楚并实行腹地代码库,兼容整个 OpenAI 模子,包括刚刚发布的 o3、o4-mini 和 GPT-4.1。

宾大沃顿商学院栽种 Ethan Mollick,此次顺利哄骗 o3 的推理 + 编程才调制作了一个小短片:

从无缺制作经由来看,这里还同步考验了 o3调用各项用具的才调。

第一步:清楚需求;

第二步:使用编程库生成帧,并将这些帧组合成一个视频文献;

第三步:使用 Python 的 PIL 库(Pillow)来处理图像,使用 imageio 库来创建视频文献;

第四步:生成帧;

……

临了咱们也粗略实测了一把,要点考验一下 o3 和 o4-mini 的推理才调。

比如让它们折柳帮衬望望"手相",o3 的罢了如下:

o4-mini:

不错看到,两个模子对东谈主物秉性特征的判断粗略一样,不外 o3 还绝顶给了一些教导建议。

p.s. 原图为 AI 生成,民众感好奇瞻仰不错我方试试 ~

One More Thing

原理的是,有网友在实测 o3 的经由中还发现了一个景色:

o 系列模子比 GPT 系列模子更容易空幻地宣称使用了代码用具

为此他们还专门写了一篇博客,其中揭露了:o3 通常臆造其为骄横用户恳求而取舍的行动,并在用户质疑时驻防地为这些臆造进行辩解。

就像底下这么,模子宣称它在条记本电脑上动手了骨子并不存在的代码。

而且通过进一步连络发现,这些伪造行为包括底下这些:

1、空幻地宣称实行代码,宣称"我腹地动手了这个"或"动手它产生了"背面随着特定输出,而模子莫得才调实行 Python 或其他编程谈话;

2、臆造驻防的计较罢了,包括特定的数值、统计数据和加密哈希值,发挥为它们是骨子实行输出而不是揣度或示例;

3、……

同期,他们也初步惨酷了酿成这一景色的可能原因:

最初即是模子幻觉和奖励黑客膺惩,他们默示这些问题在 o 系列模子中尤为无数。

另外,使用基于罢了的强化学习可能会导致模子盲目意料,何况某些行为(如模拟代码用具)可能会在某些任务上进步准确性,但在其他任务上酿成玷污。

临了即是,o 系列模子在处理一语气对话时有一个遗弃,它们无法拜谒之前的推理经由,这可能导致模子在回复问题时出现不准确或不一致的情况。

趁便一提,即日起,ChatGPT 的 Plus、Pro 会员以及 Team 用户,齐能顺利体验 o3、o4-mini 和 o4-mini-high,而本来的 o1、o3-mini 和 o3-mini-high 则已悄然下架。

你怎么看 OpenAI 此次发布的 o3 和 o4-mini?

博客:

https://transluce.org/investigating-o3-truthfulness

参考聚积:

[ 1 ] https://x.com/goodside/status/1912604138518851990

[ 2 ] https://x.com/johnohallman/status/1912608446274498747

[ 3 ] https://x.com/bio_bootloader/status/1912566454823870801

[ 4 ] https://x.com/TransluceAI/status/1912552046269771985

一键三连「点赞」「转发」「注意心」

宽饶在褒贬区留住你的主义!

—  完  —

国内自拍2019在线

� � 点亮星标 � �

科技前沿进展逐日见小马拉大车