资讯

在人工智能技术迅猛发展的背景下,语言模型已成为我们生活中不可或缺的组成部分。卡内基梅隆大学与CartesiaAI的研究团队近日发布了一项具有革命性的研究成果,提出了全新的H-Net架构,能够让AI系统直接处理原始字节级数据,摆脱传统分词器的依赖。这项 ...
在人工智能飞速发展的今天,语言模型已经成为我们日常生活中不可或缺的一部分。不过,你可能不知道的是,现在的AI系统在理解文本时都需要一个叫做"分词器"的预处理步骤,就像我们在做菜前需要把食材切成小块一样。然而,这种传统做法存在不少问题。来自卡内基梅隆大 ...
作为美国卡内基梅隆大学的助理教授和美国 AI 初创公司 Cartesia 的联合创始人,Albert Gu 曾凭借联合提出 Mamba 这一新型序列建模架构而入选 TIME 100 AI,还曾入选 2025 谷歌研究学者计划名单。图丨Albert ...
导语:中文分词是中文自然语言处理的一个非常重要的组成部分,在学界和工业界都有比较长时间的研究历史,也有一些比较成熟的解决方案。 中文 ...
2025年7月21日,卡内基梅隆大学与Cartesia AI的研究团队在人工智能领域取得了显著进展,推出了一种名为H-Net的新架构。此项研究由Sukjun Hwang、Brandon Wang和Albert Gu主导,并已在专业期刊上发表。H-Net架构的创新之处在于,它使得AI系统能够直接处理原始字节数据,彻底摆脱了对传统分词器的依赖,从而解决了当前文本处理中的多个关键问题。这项研究在学术界引 ...
在大模型领域,如何将文本数据分解成合适的单元一直是重点研究对象。传统的分词方法,如Byte Pair ...
这项由俄亥俄州立大学的Abraham Toluase Owodunni、华盛顿大学的Orevaoghene Ahia以及俄亥俄州立大学的Sachin ...
雷锋网 AI 研习社按,本文系广州火焰信息科技有限公司投稿,作者苏剑林。正文如下: 中文分词 关于中文分词的介绍和重要性,我就不多说了 ...
研究团队表示,H-Net 通过递归的、数据依赖的动态分块(DC,dynamic chunking)过程对原始数据进行压缩,代表了首个真正端到端无分词器的语言模型 ...
中文分词的最佳效果又被刷新了。 在今年的ACL 2020上,来自创新工场大湾区人工智能研究院的两篇论文中的模型,刷新了这一领域的成绩。 WMSeg,在 ...
英语中,分词的用法多样,它们常用来构成动词的完成时态或进行时态。部分动词的现在分词和过去分词可以作形容词使用,甚至是用在一句话中构成分句的一部分。 我们先来看一下问题中提到的第一组句子。 Phil 'I am starving to death' and 'I am starved to death'.
通过开发Inter-Chrom深度学习框架,首次将自然语言处理中的动态分词技术(BPE算法)引入基因组序列分析,结合染色体分割训练策略和新型基序重要性评估体系,不仅实现了染色质互作的高精度预测,更揭示了CEBPB、NF-Y等关键转录因子基序的调控机制。