![cover image](https://wikiwandv2-19431.kxcdn.com/_next/image?url=https://upload.wikimedia.org/wikipedia/commons/thumb/8/82/Las_Vegas_slot_machines.jpg/640px-Las_Vegas_slot_machines.jpg&w=640&q=50)
راهزن چند دست
From Wikipedia, the free encyclopedia
در تئوری احتمالات و یادگیری ماشین ، مسئله راهزن چند دست مسئلهای است که در آن مجموعه محدود ثابتی از منابع باید بین گزینههای رقیب تخصیص داده شود. انتخابها به گونهای که سود مورد انتظار آنها را به حداکثر برساند، زمانی که ویژگیهای هر انتخاب در زمان تخصیص فقط تا حدی شناخته شده است و ممکن است با گذشت زمان یا با تخصیص منابع به آن انتخاب، بهتر شناخته شود. </ref> این یک مسئله کلاسیک یادگیری تقویتی است که مسئله معاوضه اکتشاف – بهره برداری را توصیف میزند. این نام از تصور یک قمارباز در ردیف دستگاههای بازی گرفته شده است، که باید تصمیم بگیرد که با کدام دستگاهها بازی کند، هر دستگاه را چند مرتبه بازی کند و به چه ترتیبی بازی کند، و آیا با دستگاه فعلی ادامه دهد یا دستگاه دیگری را امتحان کند. [1] مسئله راهزن چند دست در دستهبندی برنامهریزی تصادفی قرار میگیرد.
![Thumb image](http://upload.wikimedia.org/wikipedia/commons/thumb/8/82/Las_Vegas_slot_machines.jpg/640px-Las_Vegas_slot_machines.jpg)
در این مسئله، هر دستگاه یک پاداش تصادفی را از یک توزیع احتمال خاص برای آن دستگاه ارائه میکند، که این توزیع از قبل مشخص نیست. هدف قمارباز به حداکثر رساندن مجموع پاداشهای به دست آمده از طریق دنبالهای از کشیدن اهرمها است. [2] [3] معاوضه اساسیای که قمارباز در هر آزمایشی با آن روبرو میشود، بین «استثمار» از دستگاهی است که بالاترین بازدهی مورد انتظار را دارد و «اکتشاف» برای به دست آوردن اطلاعات بیشتر در مورد بازدهی مورد انتظار دستگاههای دیگر است. مبادله بین اکتشاف و بهرهبرداری در یادگیری ماشین بررسی شده است. در عمل، راهزن چند دست برای مدلسازی مسائلی مانند مدیریت پروژههای تحقیقاتی در یک سازمان بزرگ، مانند یک بنیاد علمی یا یک شرکت داروسازی، استفاده شده است. [2] [3] در نسخههای اولیه مسئله، قمارباز بدون هیچ دانش اولیه در مورد دستگاهها شروع میکند.
هربرت رابینز در سال 1952، با درک اهمیت مسئله، استراتژیهای انتخاب جمعیت همگرا را در "برخی از جنبههای طراحی متوالی آزمایشها" ساخت. [4] یک قضیه، شاخص گیتینز ، که برای اولین بار توسط جان سی منتشر شد، یک سیاست بهینه برای به حداکثر رساندن پاداش مورد انتظار ارائه میدهد. [5]