词袋模型
维基百科,自由的 encyclopedia
在自然语言处理和信息检索里,词袋模型(英语:Bag-of-words model)是一个简化的表达模型。在此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。[1]
词袋模型被广泛应用在文件分类,词语出现的频率可以用来当作训练分类器的特征。
关于“词袋”这个用字的由来可追溯到泽里格·哈里斯(英语:Zellig Harris)于1954年在《Distributional Structure》的文章。[2]