ai policy - 搜索 News

资讯

在人工智能领域，奖励模型就像是AI系统的"老师"，它负责评价AI的行为是否符合人类的期望。传统的奖励模型训练方式就像是给学生一套标准答案，让他照着背诵。但这种方法有个致命缺陷：它过度依赖人工标注的偏好数据，不仅成本高昂，而且很难适应新的情况。更糟糕的 ...

2 天

Skywork R1V 3.0：高考数学142分背后，AI跨学科推理引发热议！

在2025年的高考中，一款名为Skywork R1V 3.0的AI模型以142分的优异成绩引发了热议。这一成绩不仅超越了多款知名的闭源模型，更是让人类专家感到压力。随着AI在教育、医疗等领域的逐步应用，如何看待这一现象成为了公众讨论的热点。

1 小时

深夜开源首个万亿模型K2，压力给到OpenAI，Kimi时刻要来了？

这次发布赶在了最近全球大模型集中发布的风口浪尖，前有 xAI 的 Grok 4，下周可能还有谷歌新 Gemini 和 OpenAI 开源模型，看起来大模型来到了一个新的技术节点。或许是感受到了 Kimi K2 ...

1 天

2025商汤奖学金公布！30位“AI新星”亮相

2025年商汤奖学金吸引了百余名来自清华大学、北京大学、上海交通大学、浙江大学、中国科学技术大学、复旦大学、南京大学、西安交通大学、华中科技大学、北京理工大学、北京邮电大学、电子科技大学等高校学子踊跃报名。经历了资格审查、线上函评、面试终评、综合审议等多个环节层层筛选，最终 30名AI领域顶尖本科生脱颖而出，荣获2025年商汤奖学金！

腾讯网1 天

港中文突破！让AI学会“一步步思考”生成图像，告别胡乱画图时代

港中文的研究团队想出了一个绝妙的解决方案：让AI在画图之前先学会"思考"。他们开发了一个名为T2I-R1的新系统，这个系统的工作方式就像人类画家一样，会先在脑海中构思整幅画的布局和细节，然后再一笔一画地完成作品。

China.org.cn2 天

China Focus: China's first bachelor's program in AI education to address teacher shortage

BEIJING, July 9 (Xinhua) -- Beijing Normal University (BNU) has launched China's first undergraduate program dedicated to artificial intelligence (AI) education, aiming to address a critical shortage ...

十轮网科技资讯 on MSN5 天

你的AI同事上线中！打造更有温度的智慧职场

当你打开计算机，第一个“同事”跳出来的不再是消息通知，而是语气亲切、主动询问“今天项目进度还顺利吗？”的AI助理，这种景象正迅速成为新常态。OpenAI模型与行为政策（Model & Behavior Policy）负责主管Joanne Jang最近指出，用户已不把生成式AI视为冰冷的自动化工具，而是能并肩作战、值得信赖的合作伙伴。

科技行者 on MSN2 天

当机器人像人一样"看懂"世界：上海AI实验室让机器人在任何环境都能 ...

这项由上海AI实验室、清华大学、浙江大学和香港大学联合开展的突破性研究发表于2025年5月，论文标题为"NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged ...

1 天

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新 ...

随着 Deepseek R1 等推理模型的成功，“基于规则的验证” 强化学习方法（RLVR）迎来了广泛应用。RLVR 会依赖给定问题的标准答案或预期行为给出奖励，从而保证了奖励信号的准确性。因此，RLVR ...

21st Century Business Herald14 小时

Bharadwaj of BCG: China's Innovation Might Reshape Global Trade | Multinationals on China

China is set to transform the global trade landscape through its deepening economic ties with the Global South, as outlined by Aparna Bharadwaj, BCG Managing Director & Senior Partner, in an interview ...

6 天

华人领衔，20人团队，拿下硅谷最大规模具身智能种子轮融资，平均 ...

成立半年，Genesis AI完成超7亿元人民币的种子轮融资。近日，美国具身智能创企Genesis AI宣布完成1.05亿美元（约合7.52亿元人民币）的种子轮融资，由美国顶级风投机构Khosla ...

6 天

新“SOTA”推理模型避战Qwen和R1？欧版OpenAI被喷麻了

作为Mistral推出的首个基于纯强化学习（RL）训练的推理大模型，Magistral采用改进的Group Relative Policy Optimization（GRPO）算法。通过消除KL散度惩罚、动态调整探索阈值和基于组归一化的优势计算，在AIME-24数学基准上实现从26.8%到73.6%的准确率跃升。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果