资讯
尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。现有模型普遍依赖基于知识的思维模式,却缺乏对视觉线索的深度校验与再思考能力,导致在复杂场景下频繁出错。为解决这一难题,来自中科院自 ...
3 小时
金融界汽车 on MSN广汽集团取得后副车架总成和车辆专利,提高了后副车架整体弯曲和 ...金融界2025年7月19日消息,国家知识产权局信息显示,广州汽车集团股份有限公司取得一项名为“后副车架总成和车辆”的专利,授权公告号CN223116446U,申请日期为2024年07月。
1 天on MSN
在中国汽车行业的瞩目盛事——2025中国汽车论坛上,一场聚焦“智数赋能,‘智’检之道”的主题论坛于7月12日在上海嘉定精彩上演。此次论坛汇聚了众多行业精英,共同探讨智能科技如何为汽车测试及产业发展注入新动力。
近日, AI多模态大模型 在文化传承领域取得新进展,通过数字化手段重现了清代宰相张英与六尺巷的故事。这一创新不仅展示了技术在文化保护和传播中的应用潜力,还为传统文化的现代化转型提供了新的思路。
这项由上海AI实验室联合清华大学、南京大学、复旦大学、香港中文大学、上海交通大学以及商汤科技共同完成的重磅研究,于2025年4月发表在计算机视觉领域的顶级会议上。感兴趣的读者可以通过GitHub开源地址https://github.com/OpenG ...
36氪获悉,深圳市模量科技有限公司(以下简称「模量科技」)宣布完成由德宁资本投资的千万级天使轮融资,北深资本担任长期顾问。本轮融资资金将主要用于产品研发、市场推广以及团队建设。
值得关注的是,阶跃星辰即将发布的多模态推理模型在国产芯片适配方面取得了重要突破,这标志着该公司在技术创新上的又一里程碑。经过全面升级的原生多模态系列模型,不仅具备图像理解、生成和编辑能力,还融入了端到端的语音功能,展现出强大的综合性能。
交易成了!OpenAI前CTO初创拿到了20亿种子轮融资,成立5个月公司估值冲到120亿美元。未来几个月,这个汇聚OpenAI顶尖大佬团队,将发布首个多模态AI产品,还会开源部分组件。
在本文中,我们聚焦于注意力头的视觉偏好,提出了一种基于 OCR 任务、无需额外训练的方法,系统量化每个注意力头对视觉内容的关注程度。我们发现,只有不到 5% 的注意力头(我们称之为视觉头,Visual ...
自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正 读懂图像与文本、在多模 态上下文中推理并创作 的能力。 能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作 ,一直是学术界和工业界关注的热门问题。
MIRIX 的表现非常亮眼!在 ScreenshotVQA 这一需要深度多模态理解的挑战性基准上,MIRIX 的准确率比传统 RAG 方法高出 35%,存储开销降低 99.9%,与长文本方法相比超出 410%,开销降低 93.3%。在 LOCOMO 长对话任务中,MIRIX 以 85.4% 的成绩显著超越所有现有基线,树立了新的性能标杆。
1 天on MSN
近日,字节跳动内部发生了一次高层人事调整,涉及AI领域的视觉多模态技术方向。据网易科技了解,豆包大模型视觉多模态团队的领航者杨建朝宣布进入休整状态,并已顺利完成手头工作的交接事宜。他的空缺将由周畅填补,周畅此前在阿里担任M6大模型的技术掌舵人,花名“ ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果