资讯

在人工智能领域,奖励模型就像是AI系统的"老师",它负责评价AI的行为是否符合人类的期望。传统的奖励模型训练方式就像是给学生一套标准答案,让他照着背诵。但这种方法有个致命缺陷:它过度依赖人工标注的偏好数据,不仅成本高昂,而且很难适应新的情况。更糟糕的 ...
在2025年的高考中,一款名为Skywork R1V 3.0的AI模型以142分的优异成绩引发了热议。这一成绩不仅超越了多款知名的闭源模型,更是让人类专家感到压力。随着AI在教育、医疗等领域的逐步应用,如何看待这一现象成为了公众讨论的热点。
这次发布赶在了最近全球大模型集中发布的风口浪尖,前有 xAI 的 Grok 4,下周可能还有谷歌新 Gemini 和 OpenAI 开源模型,看起来大模型来到了一个新的技术节点。或许是感受到了 Kimi K2 ...
2025年商汤奖学金吸引了百余名来自 清华大学、北京大学、上海交通大学、浙江大学、中国科学技术大学、复旦大学、南京大学、西安交通大学、华中科技大学、北京理工大学、北京邮电大学、电子科技大学 等高校学子踊跃报名。经历了资格审查、线上函评、面试终评、综合审议等多个环节层层筛选,最终 30名AI领域顶尖本科生 脱颖而出,荣获2025年商汤奖学金!
港中文的研究团队想出了一个绝妙的解决方案:让AI在画图之前先学会"思考"。他们开发了一个名为T2I-R1的新系统,这个系统的工作方式就像人类画家一样,会先在脑海中构思整幅画的布局和细节,然后再一笔一画地完成作品。
BEIJING, July 9 (Xinhua) -- Beijing Normal University (BNU) has launched China's first undergraduate program dedicated to artificial intelligence (AI) education, aiming to address a critical shortage ...
当你打开计算机,第一个“同事”跳出来的不再是消息通知,而是语气亲切、主动询问“今天项目进度还顺利吗?”的AI助理,这种景象正迅速成为新常态。OpenAI模型与行为政策(Model & Behavior Policy)负责主管Joanne Jang最近指出,用户已不把生成式AI视为冰冷的自动化工具,而是能并肩作战、值得信赖的合作伙伴。
这项由上海AI实验室、清华大学、浙江大学和香港大学联合开展的突破性研究发表于2025年5月,论文标题为"NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged ...
随着 Deepseek R1 等推理模型的成功,“基于规则的验证” 强化学习方法(RLVR)迎来了广泛应用。RLVR 会依赖给定问题的标准答案或预期行为给出奖励,从而保证了奖励信号的准确性。因此,RLVR ...
China is set to transform the global trade landscape through its deepening economic ties with the Global South, as outlined by Aparna Bharadwaj, BCG Managing Director & Senior Partner, in an interview ...
成立半年,Genesis AI完成超7亿元人民币的种子轮融资。 近日,美国具身智能创企Genesis AI宣布完成1.05亿美元(约合7.52亿元人民币)的种子轮融资,由美国顶级风投机构Khosla ...
作为Mistral推出的首个基于纯强化学习(RL)训练的推理大模型,Magistral采用改进的Group Relative Policy Optimization(GRPO)算法。 通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算,在AIME-24数学基准上实现从26.8%到73.6%的准确率跃升。