模态 - 搜索 News

资讯

16 小时

2025世界人工智能大会智能教育论坛将于7月26日在上海世博中心红厅拉开帷幕。此次论坛将聚焦多模态大模型、AI工具链及API开放等前沿技术，为参会者提供丰富的交流与学习机会。本次论坛将重点探讨多模态大模型 ...

1 天

3、从图像分类任务到基于图像的多语言对话，「CV 铁三角」的研究在加强和完善 AI 视觉能力的路线下逐步迭代改善，和同期一系列工作构建起现代多模态 AI 的基础框架，进而解锁后续 AI 模型在模态融合与理解的能力，使终极的多模态「大一统」成为可能。

2 小时

尽管多模态大模型在数学、科学等结构化任务中取得了长足进步，但在需要灵活解读视觉信息的通用场景下，其性能提升瓶颈依然显著。现有模型普遍依赖基于知识的思维模式，却缺乏对视觉线索的深度校验与再思考能力，导致在复杂场景下频繁出错。

研究团队定义了四种核心的视觉认知行为。视觉反思就像是看错题目后重新仔细观察图片，AI会明确表达"让我重新看看这张图"之类的想法。视觉分治则是将复杂图像分解成不同区域或元素逐一分析，比如"先看左边的数字，再看右边的图形"。视觉验证是在推理过程中不断回到 ...

这项由上海AI实验室联合清华大学、南京大学、复旦大学、香港中文大学、上海交通大学以及商汤科技共同完成的重磅研究，于2025年4月发表在计算机视觉领域的顶级会议上。感兴趣的读者可以通过GitHub开源地址https://github.com/OpenG ...

2 天

交易成了！OpenAI前CTO初创拿到了20亿种子轮融资，成立5个月公司估值冲到120亿美元。未来几个月，这个汇聚OpenAI顶尖大佬团队，将发布首个多模态AI产品，还会开源部分组件。

证券之星股票频道 on MSN2 天

证券之星消息，根据天眼查APP数据显示建工修复（300958）新获得一项发明专利授权，专利名为“基于多模态感知的施工场地降尘与污染防控方法和系统”，专利申请号为CN202510519159.2，授权日为2025年7月18日。

2025-2030年全球及中国多模态大模型行业发展前景与投资战略规划分析报告. 本报告前瞻性、适时性地对多模态大模型行业的发展背景、供需情况、市场规模、竞争格局等行业现状进行分析，并结合多年来多模态大模型行业发展轨迹及实践经验，对多模态大 ...

多模态大模型的探索正在逐步取得进展，其最终技术方案的成熟还需要在各个模态领域的路线跑通，实现多模态知识学习，跨模态信息对齐共享，进而实现理想中多模态大模型。现阶段产业主要的工作进一步在图像、视频、3d模型等模态领域引入使用，再进一步实现更多模态之间的跨模态打通和融合。

5 天

Lilian Weng曾是OpenAI安全系统负责人，主要从事机器学习、深度学习等研究。Weng本科毕业于北京大学信息系统与计算机科学专业，曾前往香港大学进行短期交流，之后在印第安纳大学布鲁明顿（Indiana University ...

Nvidia发布Cosmos-Transfer1，多模态生成可控世界模拟，用于自动驾驶训练。 Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1，可以根据多种模态的空间 ...

金融界汽车 on MSN2 天

金融界2025年7月19日消息，国家知识产权局信息显示，广州汽车集团股份有限公司取得一项名为“后副车架总成和车辆”的专利，授权公告号CN223116446U，申请日期为2024年07月。

当前正在显示可能无法访问的结果。