2024-10-12 18:00

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

摘要

神经日报 10月12日消息，据The Decoder报道，OpenAI推出了名为MLE-bench的新基准，旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛，重点评估当前机器学习开发的挑战性任务，并将AI结果与人类表现进行比较。初步测试中，o1-preview模型与AIDE框架结合表现最佳，在16.9%的竞赛中获得铜牌，超过了Anthropic的Claude 3.5

神经日报 10月12日消息，据THe DECOder报道，OpenAI推出了名为MLE-Bench的新基准，旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项KAGGle竞赛，重点评估当前机器学习开发的挑战性任务，并将AI结果与人类表现进行比较。初步测试中，o1-Preview模型与AIDE框架结合表现最佳，在16.9%的竞赛中获得铜牌，超过了Anthropic的CLAude 3.5 Sonnet。通过增加尝试次数，o1-preview的成功率翻倍至34.1%。OpenAI认为，MLE-Bench有助于评估核心ML工程技能，尽管它并未涵盖所有AI研究领域。

声明：文章不代表神经日报观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！当前页面地址：https://www.nervedaily.com/kuaixun/41862.html