伦理小说在线阅读

小马拉大车实测o3/o4-mini：3分钟解决欧拉问题，OpenAI最强模子名副其实！

发布日期：2025-04-20 08:19 点击次数：144

堪称" OpenAI 迄今为止最强模子"小马拉大车，o3/o4-mini 信得过才调究竟如何？

就在发布后的几小时内，网友们的第一波实测已簇新出炉。

最强推理模子 o3，即使遇上首位全职教导词工程师 Riley Goodside 的"刻意刁难"，也顺利过关：

不错看到，濒临藏在一堆玩物里的手绘制表，它也能通过图像识别和推理才调正确解答。

而o4-mini当作一款专为快速、经济高效的推理而优化的小模子，在数学才调方面堪称强悍——

用时 2 分 55 秒，解决了最新的欧拉问题，何况该网友强调：

于今唯有 15 个东谈主唐突在 30 分钟内解决它。

与此同期，OpenAI 里面手艺东谈主员也默示，o3 的出现让他第一次萌发了将模子称为通用东谈主工智能（AGI）的念头。

眼见脑怒齐衬托到这儿了，那咱们还不得飞速望望更多实测后果（doge）。

网友实测 o3/o4-mini 初度带图深度念念考

最初，官方提到，o3 和 o4-mini 是 OpenAI 初度能将上传图像集成到念念维链中的模子——

这意味着，它们不错基于图像张开念念考。

比如有东谈主唾手上传一张相片，让 o3 来判断拍摄时辰和场地，而且条款能具体到舆图上的某一个点。

罢了令这位小哥诧异的是，其谜底和骨子情况之间的过失特别小：

场地仅出入 1000 英尺（约 305 米），时辰仅出入 2 分钟。

更特风趣的是，假如一张图上的小字看不清，通过扒念念维链还能发现—— o3 以至会我方"悄悄放大"。

难怪在针对复杂多模态谜题的 EnigmaEva 测试基准中，o3 能拿下 SOTA。

不外值得驻防的是，据自称 OpenAI 职工的网友爆料，固然基准测试罢了存在相反，但 o4-mini 骨子上是比 o3 更好的视觉模子。

该网友以至顺利建议民众：

在职何波及视觉的任务中使用 o4-mini-high 而不是 o3。

适值的是，在大多需要计较复杂数学题的带图测试中，民众竟明白取舍了 o4-mini 而非 o3。

除了一伊始提到的解答欧拉问题的例子，o4-mini 也被用来解读手艺图纸。

该网友默示，关于这种大多 AI 齐很难处罚的贫困，它一次就顺利了：

o4 mini（high）唐突分析该部件的尺寸并准确计较出正确体积。

编程才调

其次，两个新模子此次在编程才调上齐有一定进度升级，测试罢了标明：

其中 o3 High 取代谷歌 Gemini-2.5，拿下编程第一。

顺带 OpenAI 此次还开源了一个腹地代码智能体 Codex CLI——

它是一种聊天驱动的斥地边幅，唐突清楚并实行腹地代码库，兼容整个 OpenAI 模子，包括刚刚发布的 o3、o4-mini 和 GPT-4.1。

宾大沃顿商学院栽种 Ethan Mollick，此次顺利哄骗 o3 的推理 + 编程才调制作了一个小短片：

从无缺制作经由来看，这里还同步考验了 o3调用各项用具的才调。

第一步：清楚需求；

第二步：使用编程库生成帧，并将这些帧组合成一个视频文献；

第三步：使用 Python 的 PIL 库（Pillow）来处理图像，使用 imageio 库来创建视频文献；

第四步：生成帧；

……

临了咱们也粗略实测了一把，要点考验一下 o3 和 o4-mini 的推理才调。

比如让它们折柳帮衬望望"手相"，o3 的罢了如下：

o4-mini：

不错看到，两个模子对东谈主物秉性特征的判断粗略一样，不外 o3 还绝顶给了一些教导建议。

p.s. 原图为 AI 生成，民众感好奇瞻仰不错我方试试 ~

One More Thing

原理的是，有网友在实测 o3 的经由中还发现了一个景色：

o 系列模子比 GPT 系列模子更容易空幻地宣称使用了代码用具

为此他们还专门写了一篇博客，其中揭露了：o3 通常臆造其为骄横用户恳求而取舍的行动，并在用户质疑时驻防地为这些臆造进行辩解。

就像底下这么，模子宣称它在条记本电脑上动手了骨子并不存在的代码。

而且通过进一步连络发现，这些伪造行为包括底下这些：

1、空幻地宣称实行代码，宣称"我腹地动手了这个"或"动手它产生了"背面随着特定输出，而模子莫得才调实行 Python 或其他编程谈话；

2、臆造驻防的计较罢了，包括特定的数值、统计数据和加密哈希值，发挥为它们是骨子实行输出而不是揣度或示例；

3、……

同期，他们也初步惨酷了酿成这一景色的可能原因：

最初即是模子幻觉和奖励黑客膺惩，他们默示这些问题在 o 系列模子中尤为无数。

另外，使用基于罢了的强化学习可能会导致模子盲目意料，何况某些行为（如模拟代码用具）可能会在某些任务上进步准确性，但在其他任务上酿成玷污。

临了即是，o 系列模子在处理一语气对话时有一个遗弃，它们无法拜谒之前的推理经由，这可能导致模子在回复问题时出现不准确或不一致的情况。

趁便一提，即日起，ChatGPT 的 Plus、Pro 会员以及 Team 用户，齐能顺利体验 o3、o4-mini 和 o4-mini-high，而本来的 o1、o3-mini 和 o3-mini-high 则已悄然下架。

你怎么看 OpenAI 此次发布的 o3 和 o4-mini？

博客：

https://transluce.org/investigating-o3-truthfulness

参考聚积：

[ 1 ] https://x.com/goodside/status/1912604138518851990

[ 2 ] https://x.com/johnohallman/status/1912608446274498747

[ 3 ] https://x.com/bio_bootloader/status/1912566454823870801

[ 4 ] https://x.com/TransluceAI/status/1912552046269771985

一键三连「点赞」「转发」「注意心」

宽饶在褒贬区留住你的主义！

— 完 —

国内自拍2019在线

� � 点亮星标 � �

科技前沿进展逐日见小马拉大车

上一篇：小马拉大车 Skip：詹姆斯目下参加了欣慰区之前东谈主们给了他很大的压力和期待下一篇：没有了

伦理小说在线阅读

小马拉大车实测o3/o4-mini：3分钟解决欧拉问题，OpenAI最强模子名副其实！

相关资讯

热点资讯

伦理小说在线阅读

小马拉大车 实测o3/o4-mini：3分钟解决欧拉问题，OpenAI最强模子名副其实！

相关资讯

热点资讯

小马拉大车实测o3/o4-mini：3分钟解决欧拉问题，OpenAI最强模子名副其实！