راهزن چند دست

در تئوری احتمالات و یادگیری ماشین ، مسئله راهزن چند دست مسئله‌ای است که در آن مجموعه محدود ثابتی از منابع باید بین گزینه‌های رقیب تخصیص داده شود. انتخاب‌ها به گونه‌ای که سود مورد انتظار آنها را به حداکثر برساند، زمانی که ویژگی‌های هر انتخاب در زمان تخصیص فقط تا حدی شناخته شده است و ممکن است با گذشت زمان یا با تخصیص منابع به آن انتخاب، بهتر شناخته شود. </ref> این یک مسئله کلاسیک یادگیری تقویتی است که مسئله معاوضه اکتشاف – بهره برداری را توصیف می‌زند. این نام از تصور یک قمارباز در ردیف دستگاه‌های بازی گرفته شده است، که باید تصمیم بگیرد که با کدام دستگاه‌ها بازی کند، هر دستگاه را چند مرتبه بازی کند و به چه ترتیبی بازی کند، و آیا با دستگاه فعلی ادامه دهد یا دستگاه دیگری را امتحان کند. ^[1] مسئله راهزن چند دست در دسته‌بندی برنامه‌ریزی تصادفی قرار می‌گیرد.

در این مسئله، هر دستگاه یک پاداش تصادفی را از یک توزیع احتمال خاص برای آن دستگاه ارائه می‌کند، که این توزیع از قبل مشخص نیست. هدف قمارباز به حداکثر رساندن مجموع پاداش‌های به‌ دست‌ آمده از طریق دنباله‌ای از کشیدن اهرم‌ها است. ^[2] ^[3] معاوضه اساسی‌ای که قمارباز در هر آزمایشی با آن روبرو می‌شود، بین «استثمار» از دستگاهی است که بالاترین بازدهی مورد انتظار را دارد و «اکتشاف» برای به دست آوردن اطلاعات بیشتر در مورد بازدهی مورد انتظار دستگاه‌های دیگر است. مبادله بین اکتشاف و بهره‌برداری در یادگیری ماشین بررسی شده است. در عمل، راهزن چند دست برای مدل‌سازی مسائلی مانند مدیریت پروژه‌های تحقیقاتی در یک سازمان بزرگ، مانند یک بنیاد علمی یا یک شرکت داروسازی، استفاده شده‌ است. ^[2] ^[3] در نسخه‌های اولیه مسئله، قمارباز بدون هیچ دانش اولیه در مورد دستگاه‌ها شروع می‌کند.

هربرت رابینز در سال 1952، با درک اهمیت مسئله، استراتژی‌های انتخاب جمعیت همگرا را در "برخی از جنبه‌های طراحی متوالی آزمایش‌ها" ساخت. ^[4] یک قضیه، شاخص گیتینز ، که برای اولین بار توسط جان سی منتشر شد، یک سیاست بهینه برای به حداکثر رساندن پاداش مورد انتظار ارائه می‌دهد. ^[5]

[1]

[2]

[3]

[4]

[5]