DataSets - 搜索 News

2 天

DeepSeek、OpenAI、Kimi 视觉推理哪家强，港中文 MMLab 推出推理基准 MME-COT

OpenAI o1 和 DeepSeek-R1 靠链式思维（Chain-of-Thought, CoT）展示了超强的推理能力，但这一能力能多大程度地帮助视觉推理，又应该如何细粒度地评估视觉推理呢？

5 天

大模型强化学习新发现：删减84%数据反提升效果

在人工智能领域，"更大即更强" 的理念一直主导着大模型强化学习的发展方向。特别是在提升大语言模型的推理能力方面，业界普遍认为需要海量的强化学习训练数据才能获得突破。然而，最新研究却给出了一个令人惊喜的发现： ...

China Economic Net5 天

World's first energy grass database created for sustainable development

FUZHOU, Feb. 19 (Xinhua) -- Chinese researchers have developed the world's first comprehensive database for energy grasses, a step that could support sustainable agriculture and advance renewable ...

7 天

ICLR 2025 | 多模态大模型能否胜任工业异常检测？MMAD基准揭示真相

本文由南方科技大学、腾讯优图实验室、阿尔伯塔大学、上海交通大学合作完成，已被 ICLR 2025 会议接收。完整论文、数据和代码均已开源。

10 天

直逼DeepSeek-R1-32B，碾压李飞飞s1，UC伯克利等开源全新SOTA推理模型

【导读】近日，斯坦福、UC伯克利等多机构联手发布了开源推理新SOTA——OpenThinker-32B，性能直逼DeepSeek-R1-32B。其成功秘诀在于数据规模化、严格验证和模型扩展。

腾讯网13 天

全球首个「视频教学」基准！南洋理工、CMU发布Video-MMMU

Video-MMMU的独特之处在于首次将视频作为知识传播的核心渠道，从传统的视频场景理解转向视频内容的知识学习。数据集专注于高质量教育视频，平均时长506.2秒，覆盖多个学科领域。其问题平均长度达75.7字，远超其他基准，体现出高度专业性和挑战性。

13 天on MSN

英特尔开源“礼貌卫士”Polite Guard，文本礼貌程度一键判别

英特尔近期在其官方博客上揭秘了一项创新的开源计划——“Polite Guard”，该项目致力于打造一个智能工具，用于评估文本的礼貌程度。 “Polite ...

18 天

817样本激发7倍推理性能：上交大少即是多定律挑战RL Scaling范式

在追求人工智能极限的道路上，"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域，业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而，来自上海交通大学的最新研究却给出了一个令人震惊的答案：仅需 817 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果