资讯
自2016年AlphaGo战胜国际围棋冠军以来,人工智能(AI)领域经历了飞速的发展。从2020年发布的GPT-3到2024年的Sora,这些里程碑事件不仅展示了AI在文本生成和视频生成方面的强大能力,也标志着多模态大模型正在成为AI技术的新趋势。
1 天on MSN
在中国汽车行业的瞩目盛事——2025中国汽车论坛上,一场聚焦“智数赋能,‘智’检之道”的主题论坛于7月12日在上海嘉定精彩上演。此次论坛汇聚了众多行业精英,共同探讨智能科技如何为汽车测试及产业发展注入新动力。
金融界2025年7月19日消息 ...
尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。现有模型普遍依赖基于知识的思维模式,却缺乏对视觉线索的深度校验与再思考能力,导致在复杂场景下频繁出错。为解决这一难题,来自中科院自 ...
1 天
证券之星股票频道 on MSN建工修复获得发明专利授权:“基于多模态感知的施工场地降尘与 ...证券之星消息,根据天眼查APP数据显示建工修复(300958)新获得一项发明专利授权,专利名为“基于多模态感知的施工场地降尘与污染防控方法和系统”,专利申请号为CN202510519159.2,授权日为2025年7月18日。
这项由上海AI实验室联合清华大学、南京大学、复旦大学、香港中文大学、上海交通大学以及商汤科技共同完成的重磅研究,于2025年4月发表在计算机视觉领域的顶级会议上。感兴趣的读者可以通过GitHub开源地址https://github.com/OpenG ...
交易成了!OpenAI前CTO初创拿到了20亿种子轮融资,成立5个月公司估值冲到120亿美元。未来几个月,这个汇聚OpenAI顶尖大佬团队,将发布首个多模态AI产品,还会开源部分组件。
GPT-4o 式的多模态大模型( LMMs )展现出在文本、视觉和语音模态上的全能能力,其在线语音服务还能在语音交互过程中同步提供中间文本结果(即用户输入和模型响应的转录内容),为用户提供 “ 边看边听 ” ...
MIRIX 的表现非常亮眼!在 ScreenshotVQA 这一需要深度多模态理解的挑战性基准上,MIRIX 的准确率比传统 RAG 方法高出 35%,存储开销降低 99.9%,与长文本方法相比超出 410%,开销降低 93.3%。在 LOCOMO 长对话任务中,MIRIX 以 85.4% 的成绩显著超越所有现有基线,树立了新的性能标杆。
自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正 读懂图像与文本、在多模 态上下文中推理并创作 的能力。 能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作 ,一直是学术界和工业界关注的热门问题。
2 天on MSN
近日,字节跳动内部发生了一次高层人事调整,涉及AI领域的视觉多模态技术方向。据网易科技了解,豆包大模型视觉多模态团队的领航者杨建朝宣布进入休整状态,并已顺利完成手头工作的交接事宜。他的空缺将由周畅填补,周畅此前在阿里担任M6大模型的技术掌舵人,花名“ ...
Lilian Weng曾是OpenAI安全系统负责人,主要从事机器学习、深度学习等研究 。Weng本科毕业于北京大学信息系统与计算机科学专业,曾前往香港大学进行短期交流,之后在印第安纳大学布鲁明顿(Indiana University Bloomington)分校获得博士学位。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果