模态 - 搜索 News

资讯

17 小时

自2016年AlphaGo战胜国际围棋冠军以来，人工智能（AI）领域经历了飞速的发展。从2020年发布的GPT-3到2024年的Sora，这些里程碑事件不仅展示了AI在文本生成和视频生成方面的强大能力，也标志着多模态大模型正在成为AI技术的新趋势。

1 天on MSN

宋井宽解析：多模态大模型如何重塑汽车行业AI应用新生态

在中国汽车行业的瞩目盛事——2025中国汽车论坛上，一场聚焦“智数赋能，‘智’检之道”的主题论坛于7月12日在上海嘉定精彩上演。此次论坛汇聚了众多行业精英，共同探讨智能科技如何为汽车测试及产业发展注入新动力。

14 小时

湃舵智能申请多模态数据对话机器人交互专利，推动AI技术边界

金融界2025年7月19日消息 ...

腾讯网18 小时

超越O4-mini，多模态大模型终于学会回头「看」：中科院自动化所提出 ...

尽管多模态大模型在数学、科学等结构化任务中取得了长足进步，但在需要灵活解读视觉信息的通用场景下，其性能提升瓶颈依然显著。现有模型普遍依赖基于知识的思维模式，却缺乏对视觉线索的深度校验与再思考能力，导致在复杂场景下频繁出错。为解决这一难题，来自中科院自 ...

证券之星股票频道 on MSN1 天

建工修复获得发明专利授权：“基于多模态感知的施工场地降尘与 ...

证券之星消息，根据天眼查APP数据显示建工修复（300958）新获得一项发明专利授权，专利名为“基于多模态感知的施工场地降尘与污染防控方法和系统”，专利申请号为CN202510519159.2，授权日为2025年7月18日。

腾讯网2 天

InternVL3：上海AI实验室联合多所顶尖院校打造的多模态AI大模型新突破

这项由上海AI实验室联合清华大学、南京大学、复旦大学、香港中文大学、上海交通大学以及商汤科技共同完成的重磅研究，于2025年4月发表在计算机视觉领域的顶级会议上。感兴趣的读者可以通过GitHub开源地址https://github.com/OpenG ...

1 天

5个月估值120亿，OpenAI前CTO自曝首个多模态AI，竟要免费开源

交易成了！OpenAI前CTO初创拿到了20亿种子轮融资，成立5个月公司估值冲到120亿美元。未来几个月，这个汇聚OpenAI顶尖大佬团队，将发布首个多模态AI产品，还会开源部分组件。

12 天

Stream-Omni：同时支持各种模态组合交互的文本-视觉-语音多模态大模型

GPT-4o 式的多模态大模型（ LMMs ）展现出在文本、视觉和语音模态上的全能能力，其在线语音服务还能在语音交互过程中同步提供中间文本结果（即用户输入和模型响应的转录内容），为用户提供 “ 边看边听 ” ...

3 天

MIRIX重塑AI多模态长期记忆：超Gemini 410%，节省99.9%内存，APP同步上线

MIRIX 的表现非常亮眼！在 ScreenshotVQA 这一需要深度多模态理解的挑战性基准上，MIRIX 的准确率比传统 RAG 方法高出 35%，存储开销降低 99.9%，与长文本方法相比超出 410%，开销降低 93.3%。在 LOCOMO 长对话任务中，MIRIX 以 85.4% 的成绩显著超越所有现有基线，树立了新的性能标杆。

3 天

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来，文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图，缺乏真正读懂图像与文本、在多模态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作，一直是学术界和工业界关注的热门问题。

2 天on MSN

字节跳动AI团队调整：视觉多模态负责人杨建朝离岗，周畅接任

近日，字节跳动内部发生了一次高层人事调整，涉及AI领域的视觉多模态技术方向。据网易科技了解，豆包大模型视觉多模态团队的领航者杨建朝宣布进入休整状态，并已顺利完成手头工作的交接事宜。他的空缺将由周畅填补，周畅此前在阿里担任M6大模型的技术掌舵人，花名“ ...

3 天

五个月估值120亿！OpenAI前CTO自曝首个多模态AI，竟要免费开源

Lilian Weng曾是OpenAI安全系统负责人，主要从事机器学习、深度学习等研究。Weng本科毕业于北京大学信息系统与计算机科学专业，曾前往香港大学进行短期交流，之后在印第安纳大学布鲁明顿（Indiana University Bloomington）分校获得博士学位。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果