1、词袋模型(Bag of Words):简单地将每个词表示为一个独热编码向量,但这种方法无法捕捉词语之间的语义关系。
2、TFIDF(Term FrequencyInverse Document Frequency):通过词频和逆文档频率来评估词语的重要性,但它仍然不能捕捉词语的语义。
3、Word2Vec:包括两种主要模型,连续词袋模型(CBOW)和SkipGram模型,通过上下文学习词语的向量表示。
4、GloVe(Global Vectors for Word Representation):通过矩阵分解来学习词语的向量表示,考虑全局的词频信息。
5、BERT(Bidirectional Encoder Representations from Transformers):通过预训练语言模型学习上下文化的词语表示,取得了当前NLP任务中的最先进成果。