Word2Vec

Efficient Estimation of Word Representations in Vector Space

我们提出了两种新颖的模型体系结构，用于计算来自非常大的数据集的单词的连续矢量表示。在单词相似性任务中测量这些表示的质量，并且将结果与基于不同类型的神经网络的先前最佳执行技术进行比较。我们在低得多的计算成本下观察到准确性的大幅提高，即从16亿字数据集中学习高质量字向量需要不到一天的时间。此外，我们表明这些向量在我们的测试集上提供了最先进的性能，用于测量句法和语义单词的相似性。

Previous词向量 NextBERT

Last updated 6 years ago