资讯

在此背景下,月之暗面推出了Kimi K2,这是一个拥有1.04万亿总参数、320亿激活参数的混合专家(MoE)模型。从预训练与后训练两个阶段解决智能体智能面临的核心挑战,并拓展AI能力边界。
在一项研究中,马克斯·普朗克信息学研究所,马普所萨尔布吕肯视觉计算研究中心,以及谷歌团队尝试通过利用最近的大规模数据捕获工作来共同解决相关问题。值得注意的是,这需要一种可泛化的方法,以简单的前馈方式在测试时合成数字人,而这是本次研究的主题。
这项由浙江大学计算机学院周晓巍教授领导的研究团队完成的工作,发表于2025年7月,论文编号为arXiv:2507.13344v1。团队成员包括金雨东、彭思达、王轩等多位研究者,其中部分成员来自蚂蚁集团。有兴趣深入了解技术细节的读者可以通过论文编号在a ...
使用稀疏动量训练的一些稀疏网络,其性能与权重仅为 5%的密集网络训练结果相一致。 是什么使这5%的权重如此有效 ,以至于它取得的效果与权重为 ...
稀疏前馈。 关键思想是将前馈层划分为多个部分(称为专家),每个令牌只检索一个部分,这降低了前馈块的复杂性。 这些加速主要以训练速度来 ...
60岁后,很多人发现自己的眉毛开始"不按套.路出牌"——有些部位变得稀疏,有些却突然疯长。这种变化背后,可能藏着身体想告诉你的重要信息。今天我们就来聊聊眉毛这个"健康晴雨表"的秘密。一、眉毛变长的3个生理原因1、激素水平变化随着年龄增长,体内雄激素水 ...
其中稀疏阵列因其无需牺牲成像速率、不依赖额外硬件组件而备受关注。然而传统确定性稀疏阵列设计存在一个关键缺陷——收发阵列的元件数量不匹配,这与商业超声系统收发通道数相等的特性相矛盾,导致系统资源浪费和设计灵活性受限。
最大功耗90W,INT8稀疏计算性能达到708TFLOPS。 智东西4月11日报道,美国AI三巨头不仅在大模型赛道争奇斗艳,还纷纷卷起自研AI芯片。昨天“AI界汪峰 ...
这个设计使得 mlp 层激活稀疏度达到 90.9%,整体计算量减少 26%。此外,从硬件角度出发,零值激活能够触发指令级优化。这一设计理念成功地将模型 ...
我们可以压缩大型语言模型以获得更好的性能吗?本文中,研究者提出了剪枝技术 SparseGPT,可以一次性修剪至少 50% 的稀疏性,而无需任何重新训练 ...