Datasets - 搜索 News

资讯

Prof. YAO Xu on Global AI Shifts and Chinas Strategic Role

Yao: China’s AI sector is gaining global recognition, with ecosystem players across the value chain—from core model ...

这项由NVIDIA公司研究团队完成的研究发表于2025年7月，论文标题为"OPENCODEREASONING-II: A Simple Test Time Scaling Approach via Self-Critique"。研究团队包括Wasi ...

科技行者 on MSN5 天

MBZUAI研究团队打造出史上最大开源数学训练数据集

为了解决这个问题，MBZUAI的研究团队就像是一群教育专家，决定亲自编写一套史上最全面的数学教材集。他们创建了MegaMath数据集，这是一个包含3716亿个Token的巨大数学文本库——相当于把全世界最好的数学教科书、习题集、代码示例都搜集起来，整 ...

什么值得买社区频道 on MSN1 天

如何开发WMS系统中的经营看板（附架构图+流程图+代码参考）

为了确保数据的准确性，首先需要保证数据采集的准确性。与WMS系统的数据接口应进行严格验证，并对数据进行定期检查和校正。此外，建议在开发过程中增加数据验证和错误日志记录功能，及时发现并解决问题。

5 天

史上最大开源数学训练数据集MegaMath正式发布，助力AI数学推理能力 ...

在2025年4月，阿联酋穆罕默德·本·扎耶德人工智能大学（MBZUAI）的研究团队发布了一项突破性的研究成果，推出了史上最大的开源数学训练数据集——MegaMath。这项研究由Fan Zhou、Zeng Zhi Wang等人共同完成，论文标题为"MegaMath: Pushing the Limit of Open Math ...

5 天

大语言模型离“数学证明高手”还有多远？斯坦福、伯克利、MIT 团队 ...

反过来看，大语言模型是用大量自然语言训练出来的，虽然直接生成机器可验证的形式化证明的能力并不是太强，但在“非正式推理”这块反倒表现不错。同时自然语言符合人类的思考模式，门槛低，易处理。因此，探索大语言模型在自然语言环境下进行不等式证明的能力，是一个既 ...

4 天

普林斯顿团队领衔发布最强开源数学定理证明模型：32B性能大幅超越 ...

近日，由普林斯顿大学牵头，联合清华大学、北京大学、上海交通大学、斯坦福大学，以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。

6 天

只因一个“:”，大模型全军覆没

只需要基于all-MiniLM-L6-v2编码器进行嵌入相似度搜索，从大规模语料中自动生成与已知 “万能钥匙” 相似的新对抗性响应，新的“万能钥匙”就能同样产生出高水平FPR。

4 天

「0污染」LLM理解基准来了！20000道题14个学科全覆盖，来自微软

在MMLU-CF中，研究人员将数据集划分为测试集和验证集，并通过计算「绝对分数差异」评估模型的泛化能力。统计结果显示，约60%的差异值小于0.5，96%的差异值低于1.0，表明测试集和验证集的评估结果高度一致。

6 天

紫东太初团队投稿

它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累，更引入了流式交错解码架构，实现了低延迟的实时语音生成。OpenS2S提出自动化数据生成方法，结合大语言模型与可控文本到语音生成技术，构建多说话者、多情感的高质量共情语音训练语料。

头部财经5 天

普林斯顿团队发布开源数学定理证明模型：32B性能大幅超越前代

近日，由普林斯顿大学牵头，联合清华大学、北京大学、上海交通大学、斯坦福大学，以及英伟达、亚马逊、meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。该项目的 32B 旗舰模型在多个自动数学定理证明的主要基准测试上均大幅超过之前的最先进开源模型 DeepSeek-Prover-V2-671B；而 8B 小尺寸模型在特定基准上，性能表现 ...

头部财经5 天

港中文&华为联合提出首个大模型推理可靠性评估基准

面对无解问题最强模型也会束手无策？今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。对于复杂的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果