ai policy - 搜索 News

资讯

在人工智能领域，奖励模型就像是AI系统的"老师"，它负责评价AI的行为是否符合人类的期望。传统的奖励模型训练方式就像是给学生一套标准答案，让他照着背诵。但这种方法有个致命缺陷：它过度依赖人工标注的偏好数据，不仅成本高昂，而且很难适应新的情况。更糟糕的 ...

1 小时

深夜开源首个万亿模型K2，压力给到OpenAI，Kimi时刻要来了？

这次发布赶在了最近全球大模型集中发布的风口浪尖，前有 xAI 的 Grok 4，下周可能还有谷歌新 Gemini 和 OpenAI 开源模型，看起来大模型来到了一个新的技术节点。或许是感受到了 Kimi K2 ...

15 小时

重磅！Science子刊最新封面！里程碑突破：机器人首次自主手术100%成功！

本周，Science旗下机器人领域顶刊《Science Robotics》最新一期封面文章发表重磅成果：约翰霍普金斯大学团队的手术机器人SRT-H（Hierarchical Surgical Robot ...

腾讯网23 小时

奖励模型也能Scaling！上海AI Lab突破强化学习短板

当前，大模型在Next Token Prediction和 Test-time ...

23 小时

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习 ...

当前，大模型在 Next Token Prediction 和 Test-time Scaling 两种扩展范式下，通过大规模的数据和模型扩展，实现了能力的持续跃升。但相比之下，奖励模型缺乏系统性的预训练和扩展方法，导致其能力难以随计算量增长而持续提升，成为阻碍强化学习链路进一步扩展的短板。

21st Century Business Herald14 小时

Bharadwaj of BCG: China's Innovation Might Reshape Global Trade | Multinationals on China

China is set to transform the global trade landscape through its deepening economic ties with the Global South, as outlined by Aparna Bharadwaj, BCG Managing Director & Senior Partner, in an interview ...

上师大商学院13 小时

我院研究生张志锐荣获第五届全国大学生发展经济学论文大赛一等奖

2025年7月6日，第五届全国大学生发展经济学论文大赛在华中科技大学圆满落幕。我院2023级数量经济学研究生张志锐同学凭借论文《加剧还是减缓：工业机器人如何影响区域经济差异》，在全国385篇参赛论文中脱颖而出，荣获本届大赛一等奖，彰显了我校在应用经济 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果