资讯

要满足当下的数据饥渴,必须重新思考“如何从人类劳动中提炼信号”。 构建评测与 RL 环境,是对人类时间最高杠杆、最持久的利用方式。 Mercor 已率先用自动评分器打造环境,并在“模拟工作空间、多轮交互、多模态”等维度持续拓展 RL 数据的边界。