Datasets - 搜索 News

资讯

一个标点就能迷惑LLM-as-a-Judge！腾讯AI Lab俞栋团队通过数据增强训练 ...

大型语言模型（LLM）作为自动裁判（LLM-as-a-Judge），因其能灵活评估开放域答案质量，正迅速取代传统规则型奖励模型，成为强化学习可验证奖励（RLVR）的核心组件。

2 天

在人工智能快速发展的今天，让计算机自己写代码已经不再是科幻小说中的情节。但就像人类写作需要反复修改一样，AI写代码也面临着同样的挑战——如何让机器不仅能写出代码，还能判断代码的好坏，甚至进行自我改进。NVIDIA的研究团队最近在这个领域取得了重要突破 ...

6 天

「0污染」LLM理解基准来了！20000道题14个学科全覆盖，来自微软

在MMLU-CF中，研究人员将数据集划分为测试集和验证集，并通过计算「绝对分数差异」评估模型的泛化能力。统计结果显示，约60%的差异值小于0.5，96%的差异值低于1.0，表明测试集和验证集的评估结果高度一致。

腾讯网6 天

大模型转行土木工程！首个「打灰人」评估基准：检验读、改工程 ...

首个工程自动化任务评估基准DrafterBench，可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令，全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力，研究结果发现当前主流大模型虽有一定能力，但整体水平仍不足以 ...

7 天

MBZUAI研究团队打造出史上最大开源数学训练数据集

为了解决这个问题，MBZUAI的研究团队就像是一群教育专家，决定亲自编写一套史上最全面的数学教材集。他们创建了MegaMath数据集，这是一个包含3716亿个Token的巨大数学文本库——相当于把全世界最好的数学教科书、习题集、代码示例都搜集起来，整 ...

7 天

大语言模型离“数学证明高手”还有多远？斯坦福、伯克利、MIT 团队 ...

反过来看，大语言模型是用大量自然语言训练出来的，虽然直接生成机器可验证的形式化证明的能力并不是太强，但在“非正式推理”这块反倒表现不错。同时自然语言符合人类的思考模式，门槛低，易处理。因此，探索大语言模型在自然语言环境下进行不等式证明的能力，是一个既 ...

腾讯网7 天

MegaMath：MBZUAI研究团队打造出史上最大开源数学训练数据集，3700亿 ...

在代码数据的处理上，研究团队发现了一个有趣的现象：严格的筛选标准能够显著提升模型使用代码解决数学问题的能力，而且代码数据的比例不应超过总数据的20%，这样既能保持代码辅助解题的优势，又不会损害模型的自然语言推理能力。这就像是在数学教学中，适量的编程练 ...

7 天

普林斯顿团队领衔发布最强开源数学定理证明模型：32B性能大幅超越 ...

近日，由普林斯顿大学牵头，联合清华大学、北京大学、上海交通大学、斯坦福大学，以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。

8 天

只因一个“:”，大模型全军覆没

只需要基于all-MiniLM-L6-v2编码器进行嵌入相似度搜索，从大规模语料中自动生成与已知 “万能钥匙” 相似的新对抗性响应，新的“万能钥匙”就能同样产生出高水平FPR。

China.org.cn14 天

EU unveils AI code of practice amid industry calls for regulatory delay

BRUSSELS, July 10 (Xinhua) -- The European Commission on Thursday released the final version of a voluntary code of practice for general-purpose artificial intelligence (GPAI), aimed at helping ...

智东西 on MSN16 天

AI能听懂你的“话外音”了？

智东西编译 | 程茜编辑 | 心缘 AI能听懂你的“话外音”了？智东西7月8日消息，近日，阿里通义实验室开源多模态推理模型HumanOmniV2。 HumanOmniV2通过引入强制上下文总结机制、大模型驱动的多维度奖励体系，以及基于GRPO的优化训练方法，实现了对多模态信息的全面理解，使得模型不会错过图像、视频、音频中的隐藏信息，一定程度上规避其在全局上下文理解不足和推理路径简单上的问题。

GitHub1 年

下游任务数据集 · dbiir/UER-py Wiki · GitHub

Open Source Pre-training Model Framework in PyTorch & Pre-trained Model Zoo - 下游任务数据集 · dbiir/UER-py Wiki ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果