资讯

在人工智能领域,奖励模型就像是AI系统的"老师",它负责评价AI的行为是否符合人类的期望。传统的奖励模型训练方式就像是给学生一套标准答案,让他照着背诵。但这种方法有个致命缺陷:它过度依赖人工标注的偏好数据,不仅成本高昂,而且很难适应新的情况。更糟糕的 ...
这次发布赶在了最近全球大模型集中发布的风口浪尖,前有 xAI 的 Grok 4,下周可能还有谷歌新 Gemini 和 OpenAI 开源模型,看起来大模型来到了一个新的技术节点。或许是感受到了 Kimi K2 ...
本周,Science旗下机器人领域顶刊 《Science Robotics》最新一期封面文章发表重磅成果: 约翰霍普金斯大学团队的手术机器人SRT-H(Hierarchical Surgical Robot ...
当前,大模型在Next Token Prediction和 Test-time ...
当前,大模型在 Next Token Prediction 和 Test-time Scaling 两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃升。但相比之下,奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升,成为阻碍强化学习链路进一步扩展的短板。
China is set to transform the global trade landscape through its deepening economic ties with the Global South, as outlined by Aparna Bharadwaj, BCG Managing Director & Senior Partner, in an interview ...
2025年7月6日,第五届全国大学生发展经济学论文大赛在华中科技大学圆满落幕。我院2023级数量经济学研究生张志锐同学凭借论文《加剧还是减缓:工业机器人如何影响区域经济差异》,在全国385篇参赛论文中脱颖而出,荣获本届大赛一等奖,彰显了我校在应用经济 ...