词表 - 搜索 News

资讯

实验结果表明，使用预测的最优词表大小的模型在多个任务上一致地优于使用常规词表大小的模型。 5.2 训练数据量对最优词表大小的影响第 6 章结论 ...

为了验证我们的方法 3 能够处理这些实际场景中由于训练数据量变化对最优词表大小的影响，我们将词表大小为的模型与方法 3 预测的最优词表大小的模型进行了比较。如表所示，我们的预测可以根据不同的训练数据量，有效调整词表大小，实现了更好的模型。

在这一节中，本文报告了基于三种方法预测的最优词表参数和大小，遵从以前的关于 scaling laws 中数据量和模型参数的算力分配有关工作 [1]，训练数据的量与非词表参数等比例地随 FLOPs 预算缩放。… ...

目前的DeepSeek V2似乎并没有扩中文词表，这样中文推理的效率还未达到最高。

Foldseek默认的结构词表大小只有20，如果有更加精准的结构编码模型，扩大结构表征的词表大小，是不是能进一步提升模型利用结构的能力？

扩充百川中文词表，该词表中文识字率较高，用于提高简繁体汉字的识字率；根据结巴分词词频前20000的词表扩充中文词，提高专名切分效果 ...

本文初步探讨了不同类型的词表对语言模型训练所产生的影响，研究者使用了 12 个小型的语言模型及 4 个中型的语言模型作为实验对象，并得出了直观简洁的结论。这些结论可以帮助你选择最合适的词表来训练语言模型。

西湖大学的研究人员利用Foldseek来处理蛋白质结构，将其编码成一维的离散token，并与传统的氨基酸进行结合，形成了结构感知词表（Structure-aware Vocabulary），以此将结构信息嵌入到模型输入中，增强模型的表征能力。

① 反对使用顺序版词表，也就是按字母顺序从A排到Z的词表。这种词表只适合用来快速查单词，不适合用来记忆。

4. 总结本文研究了大词表跨语言模型的预训练。首先，我们提出 VoCap 方法构建跨语言模型中的多语言大词表。我们首先通过定量分析说明平均对数概率是一个衡量词表中特定语言的词汇能力的有效指标，并且与下游任务性能呈正相关。

一些您可能无法访问的结果已被隐去。