مدل بسته کلمات
From Wikipedia, the free encyclopedia
مدل بسته کلمات (به انگلیسی: Bag-of-words model)، یک نمایش ساده است که در پردازش زبانهای طبیعی و بازیابی اطلاعات (IR) استفاده میشود. همچنین به عنوان مدل فضای برداری شناخته میشود. در این مدل، یک متن (مانند یک جمله یا سند) به صورت یک بسته چند مجموعه از کلمات آن، بیتوجه به دستور زبان و حتی نظم کلمات نمایش داده میشود.[1] مدل بسته کلمات برای بینایی کامپیوتر (به انگلیسی: computer vision)، استفاده شدهاست.[2] مدل بسته کلمات معمولاً در روشهای دستهبندی اسناد مورد استفاده قرار میگیرد که در آن وقوع هر کلمه به عنوان یک ویژگی برای آموزش طبقهبندی آماری استفاده میشود. اشاره اولیه به " بسته کلمات " در زمینه زبانی را میتوان در مقاله زالیگ هریس (به انگلیسی: Zellig Harris)، در سال ۱۹۵۴ در ساختار توزیعی یافت.[3]