理和化学领域，

rifat177 · Post by **rifat177** » Thu Dec 26, 2024 6:38 am

（一项旨在挑战美国最聪明的高中生的考试），GPT-o 只解决了 % 的问题，o 的得分为 8%。。在编码方面，GPT-o 在竞争性编程问题（Codeforces）上得分为 %，o 得分为 89%。。在博士级别的科学题（GPKA Diamond）中，GPTo为56.%，o比人类医生高出了69.7%，达到了恐怖的78%。（o与gpto对比，来源：OpenAI官网）。当启用视觉感知功能时，多模态 o 在 MMMU 上达到 78.%，成为第一个与人类专家竞争的模型。

在博士级别的科学立陶宛电话号码列表问题上，尤其是物。 .5 获得9%/。 IOI（国际信息学奥林匹克竞赛）的成绩，每个问题有 5 份提交。和。在所提交的问题中，该模型获得了 6 分，超过了金牌门槛。（o和gpto的比较，来源：OpenAI官网） .6 安全性衡量安全性的一种方法是测试当用户试图绕过安全规则（所谓的“越狱”）时，模型是否继续遵守安全规则。在最难的越狱测试中，GPT-o 得分为 /，而 o-previev 模型得分为 8/。

.7 缺点通用人工智能的核心是通用性和泛化性，但o在一些简单的自然语言处理任务如写作、编辑文本等方面并没有明显的提升，这意味着o的应用范围有一定的局限性。。创新：自我对弈 RL + 内化 COT 作为第一个使用大规模学习算法训练的模型，o 能够在回答问题之前深入思考问题。 o 不再要求用户输入复杂的COT提示，而是利用强化学习将思维链内化，然后进行持续训练。通过以思路链的方式分解问题，可以不断地验证、修正模型并尝试新的方法。