Llama - 搜索 News

Llama都在用的RoPE（旋转位置嵌入）被扩展到视频领域，长视频理解和检索更强了。复旦大学、上海AI实验室等提出VideoRoPE，并确定了将RoPE有效应用于视频所需的四个关键特性。

2 天

近日，Meta宣布将于2025年4月29日举行首届生成式人工智能开发者大会LlamaCon，此次大会以Meta旗下的Llama系列生成式AI模型命名。作为当今科技界的重要参与者，Meta的这一举措不仅彰显了其在AI领域的坚定步伐，也预示着生成式AI将 ...

4 天

Llama-3.2如何通过Diffusion法提升视觉理解能力，表现提高30%

在人工智能的不断进化中，多模态大模型的发展备受关注。尤其是Llama-3.2，这一模型通过借鉴Stable ...

16 天

开源的AI大模型那么多，DeepSeek V3凭啥震动全球AI圈？

各位老铁，最近AI圈可是炸了锅！Meta的 Llama 3 、马斯克 xAI公司的大模型，还有阿里的千问，哪个不是响当当的开源顶流？但偏偏杀出一匹中国黑马DeepSeek V3，直接把“行业地震”玩成了“日常操作”！今天咱们就掰扯掰扯，这背后的门道到底有多深？

2 天

Meta 宣布举办首届生成式 AI 开发者大会 LlamaCon，聚焦 Llama 系列模型

Meta 公司近日宣布，将于4月29日举行首届 LlamaCon 开发者大会，专注于其 Llama 系列生成式 AI 模型的最新进展。这一大会旨在为开发者提供一个平台，分享开源 AI 的最新成果，帮助他们更好地构建应用和产品。随着生成式 AI ...

2 天

联发科推出两款多模态轻量级 AI 模型：主打繁体中文处理能力、基于 ...

IT之家获悉，系列模型基于 Meta Llama 3.2 语言模型打造而成，主打繁体中文处理能力，同时支持多模态输入和函数调用，能够识别图像并调用外部工具。在繁体中文处理能力方面，联发科提供的对比显示，相较于参数量相同的 Llama 3.2 3B Instruct 模型，Llama-Breeze2-3B 在撰写关于台北夜市的小短文时，能够准确列举出士林夜市、饶河街夜市和罗东夜市等当地知名夜市 ...

2 天

Meta连发两大盛会预告：LlamaCon聚焦AI，Meta Connect 2025展望AR眼镜

me ta公司近日揭晓了两场即将举行的科技盛会详情，为科技爱好者和开发者们带来了诸多期待。首先，me ta Connect 2025年度开发者大会定于9月17日盛大开幕，作为me ta一年一度的科技盛宴，此次大会将深度聚焦me ta ...

9 天

DeepSeek并非完美，训练过程存在“深度诅咒”

“深度诅咒”现象的根源在于Pre-LN的特性。Pre-LN是一种在Transformer架构模型中广泛使用的归一化技术，它在每一层的输入上进行归一化，而不是在输出上。这种归一化方式虽然能够稳定模型的训练过程，但也带来了一个严重的问题，随着模型深度的增 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果