خودرمزگذار

خودرمزگذار (به انگلیسی: Autoencoder) یک شبکه عصبی مصنوعی است که برای کدینگ از آن استفاده می‌شود.^[1] از خود رمزگذارها برای استخراج ویژگی و فشرده سازی نمایش داده‌های با ابعاد بالا، یا به عبارت دیگر برای کاهش ابعاد استفاده می‌شود.

در یک خودرمزگذار می‌توان ۳ یا تعداد بیشتری لایه داشت:

لایه‌ی ورودی
لایه (ها)‌ی پنهان
لایه‌ی خروجی

در ساده‌ترین حالت یک خودرمزگذار شامل یک encoder (رمزگذار) و decoder (رمزگشا) به همراه تنها یک لایه پنهان میباشد. ورودی به encoder داده شده و خروجی از decoder استخراج میشود. در این نوع شبکه به جای آموزش شبکه و پیشبینی مقدار تابع هدف در ازای ورودی X ، خودرمزگذار آموزش میبیند که ورودی خود را بازسازی کند؛ بنابراین بردار خروجی همان ابعاد بردار ورودی X را خواهد داشت؛ یعنی تعداد نورون‌های موجود در لایه ورودی و خروجی با یکدیگر برابر است. همانطور که گفته شد در این شبکه خروجی بازسازی ورودی بوده و از الگوریتم پس انتشار (به انگلیسی: BackPropagation) خطا برای یادگیری استفاده میشود. خودرمزگذارها با حداقل کردن خطای بازسازی (به انگلیسی: Reconstruction) شبکه را آموزش می‌دهند. معمولا تعداد نورونهای موجود در لایه پنهان کمتر از لایه encoder/decoder میباشد. لایه پنهان یا کد در حقیقت representation یا نمایش داده در فضای بعد کاهش یافته آن میباشد و عملا متناظر با ویژگی های استخراج شده است. پس از آموزش شبکه بخش decoder حذف شده و خروجی میانی‌ترین لایه پنهان (به انگلیسی: Innermost Hidden Layer) به عنوان ویژگی های استخراج شده در نظر گرفته می‌شود. به منظور کاهش بیشتر ابعاد می‌بایست از تعداد لایه های پنهان بیشتری در شبکه استفاده کرد که در اصطلاح خودرمزگذار عمیق نامیده میشود.

در صورتی که در لایه میانی تنها از توابع خطی استفاده شود یا اینکه تنها از یک لایه سیگموید استفاده شود، عملکرد شبکه مطابق با تحلیل مؤلفه‌های اصلی است.^[2]

خودرمزگذار‌ها اولین بار در حدود سال 1980 توسط Hinton و گروه PDP معرفی شد که در تلاش بودند تا مسئله‌ی پس انتشار بدون معلم را حل کنند.^[3] نخستین استفاده‌های خودرمزگذار‌ها در بحث کاهش ابعاد یا یادگیری ویژگی بود اما امروزه در بسیاری از حوزه‌های دیگر در هوش مصنوعی و یادگیری ماشین همچون یادگیری انتقالی کاربرد دارند. از حدود سال 2010 با پیشرفت حوزه‌ی یادگیری ژرف از آن‌ها در بسیاری از مسائل یادگیری ماشین مخصوصا در روش‌های مبتنی بر معماری عمیق استفاده می‌شود.

همانطور که در بالا ذکر کردیم از امروزه از خودرمزگذار‌ها در بسیاری از مسائل استفاده می‌شود که در زیر به چند تا از مهم‌ترین آن‌ها می‌پردازیم.

کاهش ابعاد

کاهش ابعاد روندی است که در آن تعداد ابعاد داده را کاهش می‌دهیم. به عبارت دیگر داده‌ها را از فضای برداری ابعاد بالاتر به فضای ابعاد پایین‌تر می‌بریم یا تنها تعدادی از ویژگی‌ها و ابعاد را انتخاب می‌کنیم. دلیل این کار خیلی جاها برای جلوگیری از بیش برازش یا کار کردن راحت‌تر با داده‌ها یا مصور‌سازی می‌باشد. به کمک خودرمزگذار‌ها می‌توان داده‌ها را از ابعاد بالاتر به ابعاد پایین‌تر برد و استخراج ویژگی را انجام داد.^[4] در واقع همانطور که در بخش‌های بالاتر توضیح داده شد می‌توان لایه‌ی کد (که به آن در برخی منابع لایه‌ی تنگنا یا bottleneck نیز گفته می‌شود) را به عنوان بازنمایی جدیدی از داده در نظر گرفت که در فضای برداری با ابعاد کمتری قرار دارد. در واقع بعد از آموزش کامل خودرمزگذار، کافی است تا بخش decoder (رمزگشا) را جدا کرد و تنها بخش encoder (رمزگذار) را نگه داشت و به عنوان شبکه‌ای از آن استفاده کرد که داده را ورودی می‌گیرد و خروجی آن بازنمایی جدیدی از داده در ابعاد پایین‌تر است.^[5]در واقع با این کار عملاً استخراج ویژگی را نیز انجام داده‌ایم.

خود رمزگذار‌ها در مقایسه با روش‌های دیگر کاهش ابعاد مثل PCA یا همان تحلیل مؤلفه‌های اصلی معمولا از قدرت بهتری برخوردارتر هستند و طبق آزمایش‌ها نتایج منطقی‌تری می‌دهند. برای نمونه می‌توانید به عکس بالا دقت کنید.^[6]

البته دقت کنید که استفاده از توابع غیر خطی در میان لایه‌های خودرمزگذار قدرت آن را بیشتر از روش‌هایی مثل تحلیل مؤلفه‌های اصلی می‌کند. در صورتی که تمام لایه‌ها در خودرمزگذار خطی باشند تفاوت آن‌چنان و کاهش ابعاد بهتری در مقایسه با روش‌های سنتی نخواهیم داشت.^[7]

تشخیص ناهنجاری

در تحلیل داده‌ها، تشخیص ناهنجاری (به انگلیسی: Anomaly detection) به فرایند تشخیص الگو‌ها یا آیتم‌های منحصر به فرد که از عموم دیتا فاصله‌ی بسیار زیادی دارند و با رفتار نرمال از پیش مقررشده‌ی داده مطابقت ندارند، اشاره دارد. خیلی ساده می‌توان از خودرمزگذار‌ها برای این کار استفاده کرد. فرض کنید یک خودرمزگذار داریم که بر روی عکس‌های داده‌هایی مربوط به سگ‌ها آموزش داده شده است. در نتیجه این خودرمزگذار قادر است تا با گرفتن عکس یک سگ تا حد خوبی و با مقدار تابع هزینه‌ی کم، آن را بازسازی کند. در نتیجه اگر یک عکس از دامنه‌ی دیگری به آن داده شود، هم این تابع هزینه بسیار بالا می‌رود و هم نمی‌تواند به خوبی عکس را بازسازی کند. زیرا فضای نهفته‌ای که آموزش دیده شده مربوط به دامنه‌ی سگ‌ها بوده و در نتیجه با این روش به سادگی می‌توان ناهنجاری را تشخیص داد.^[8]

رفع نویز در عکس

در دینای امروزه، دیتایی که در دست ما برای حل مسائل قرار دارد اغلب دارای نویز است و مدل‌هایمان برای آموزش درست و صحیح به داده‌ای بهتر و تا حد امکان نویز کمتر نیاز دارند. دسته‌ای از خودرمزگذار‌ها که به آن‌ها رمزگذار‌های رفع نویز نیز گفته می‌شود، در این جا می‌توانند استفاده شوند تا به خوبی و با عملکرد قابل قبولی نویز‌های درون عکس را حذف کنند. برخلاف متد‌های سنتی که برای حذف نویز استفاده می‌شود، خودرمزگذار‌ها دنبال نویز درون عکس نمی‌گردند بلکه آن‌ها با یادگیری بازنمایی صحیحی از عکس سعی می‌کنند تا از دست این نویز‌ها راحت شوند و در نهایت با ساختن دوباره‌ی عکس این بار بدون نویز این کار را انجام دهند.^[10] در واقع برای آموزش این دسته‌ از خودرمزگذار‌ها معمولا از تعداد زیادی عکس در دو حالت با نویز و بدون نویز استفاده می‌کنند.

تولید عکس‌

یک دسته‌ی خاصی از خودرمزگذار‌ها که به آن‌ها خودرمزگذار متغیر (به انگلیسی: Variational Autoencoder) گفته می‌شود، می‌توانند استفاده شوند تا به ما در تولید عکس‌های متنوع و جدیدی کمک کنند. در واقع این نوع مدل‌ها از دسته‌ی مدل سازنده می‌باشند که برای تولید عکس می‌توان از آن‌ها کمک گرفت. ایده‌ی کار به این ترتیب است که از روی تعدادی عکس ورودی برای مثال تعدادی عکس صورت انسان، می‌تواند عکس‌های جدیدی از صورت‌ها درست کند که بسیار طبیعی و شبیه به عکس‌های داده شده باشند ولی همچین آدم‌هایی یا همچین عکس‌هایی در حقیقت وجود ندارند. در خودرمزگذار متغیر سعی می‌شود تا با استفاده از یک دانش پیشین شروطی روی فضای نهفته (به انگلیسی: Latent space) تولید شده توسط رمزگذار قرار داده شود تا نقاط نزدیک هم در فضا، داده‌هایی نزدیک به هم در فضای ورودی تولید کنند. در این روش رمزگذار می‌تواند چندین داده‌ی جدید از هر ورودی تولید کند که همه از یک توزیع آماری (به انگلیسی: Probability distribution) نمونه‌برداری شده‌اند.^[11]^[12]

یک شبکه عصبی خودرمزگذار با تنظیم مقادیر خروجی هدف برابر با مقادیر ورودی، پس‌انتشار را انجام می‌دهد و بدین ترتیب خودرمزنگار آموزش داده می‌شود تا اختلاف بین داده‌ها و بازسازی آن را به حداقل برساند (یعنی تفاوت بین بردار واقعی خروجی و بردار خروجی مورد انتظار، که در آن خروجی مورد انتظار همان بردار ورودی است). در نتیجه، خودرمزنگار‌ها قادر به یادگیری بدون معلم (ناظر) هستند.^[13] در نگاه اول شاید برایتان عجیب برسد که چرا باید یک شبکه داشته باشیم که در آن تنها بخواهیم که خروجی ما همچون ورودی باشد و چرا باید آن را آموزش دهیم ولی در حقیقت به کمک لایه‌های میانی، مخصوصا لایه‌ی Bottleneck یا گلوگاه که در آن داده‌ی ورودی به کمترین تعداد بعد می‌رسد، می‌توان کارهای خوبی کرد و به اطلاعات ارزشمندی از داده برسیم که چند نمونه از کاربرد‌های آن را هم در بالا مطرح کردیم. در پروسه‌ی آموزش تلاش می‌شود تا تابع هزینه‌ی بازسازی را کمینه کنیم.

در ادامه سعی می‌کنیم تا کمی از نظر ریاضی یک خودرمزگذار ساده را توضیح دهیم. اگر ورودی $x$ باشد، به کمک رمز‌گذار $h=f(x)$ را محاسبه می‌کند و فضای نهفته (به انگلیسی: Latent space) تولید می‌شود. سپس رمزگشا با گرفتن $h$ به عنوان ورودی سعی می‌کند تا ورودی را بازسازی کند. به طور ریاضی می‌توان گفت: ${\hat {x}}=g(h)=g(f(x))$

تابع هزینه‌ی ما به کمک تفاوت میان $x$ و ${\hat {x}}$ محاسبه می‌شود و در طول آموزش تلاش می‌شود تا توابع $f$ و $g$ را به نحوی بدست آورد که تابع هزینه‌ کمینه شود. به طور معمول تابع هزینه را خطای میانگین مربعات بین ورودی و خروجی بازسازی شده یا همان ${\hat {x}}$ در نظر می‌گیرند.^[14]

[1]
Modeling word perception using the Elman network, Liou, C. -Y. , Huang, J. -C. and Yang, W. -C. Neurocomputing, Volume 71, 3150–3157 (2008), doi:10.1016/j.neucom.2008.04.030
[2]
Auto-association by multilayer perceptrons and singular value decomposition, H. Bourlard and Y. Kamp Biological, Cybernetics Volume 59, Numbers 4-5, 291-294, doi:10.1007/BF00332918
[3]
Pierre Baldi. «Autoencoders, Unsupervised Learning, and Deep Architectures» (PDF).
[4]
R, Srivignesh (2021-06-15). "Dimensionality Reduction using AutoEncoders in Python". Analytics Vidhya (به انگلیسی). Retrieved 2022-12-30.
[5]
Wang, Yasi; Yao, Hongxun; Zhao, Sicheng (2016). "Auto-encoder based dimensionality reduction". Neurocomputing. 184: 232–242. doi:10.1016/j.neucom.2015.08.104. ISSN 0925-2312.
[6]
Fournier, Quentin; Aloise, Daniel (2019). "Empirical comparison between autoencoders and traditional dimensionality reduction methods". 2019 IEEE Second International Conference on Artificial Intelligence and Knowledge Engineering (AIKE): 211–214. doi:10.1109/AIKE.2019.00044.
[7]
Muaz, Urwa (2019-07-25). "Autoencoders vs PCA: when to use which ?". Medium (به انگلیسی). Retrieved 2023-01-30.
[8]
"Autoencoders in Deep Learning: Tutorial & Use Cases [2022]". www.v7labs.com (به انگلیسی). Retrieved 2022-12-30.^{^{[پیوند مرده]}}
[9]
neerajkrbansal1996 (2020-06-21), Denoising autoencoder Using Keras, retrieved 2023-01-30
[10]
"Autoencoders in Deep Learning: Tutorial & Use Cases [2022]". www.v7labs.com (به انگلیسی). Retrieved 2022-12-30.^{^{[پیوند مرده]}}
[11]
Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs, stat].
[12]
Hsu, Wei-Ning; Zhang, Yu; Glass, James (2017-09-22). "Unsupervised Domain Adaptation for Robust Speech Recognition via Variational Autoencoder-Based Data Augmentation". arXiv:1707.06265 [cs].
[13]
میلاد وزان، یادگیری عمیق: اصول، مفاهیم و رویکردها، میعاد اندیشه، 1399
[14]
«The Story of Autoencoders - Machine Learning Mindset» (به انگلیسی). ۲۰۲۱-۰۷-۱۸. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.^{^{[پیوند مرده]}}

ماشین بولتزمن محدود شده

[1] [1]
Modeling word perception using the Elman network, Liou, C. -Y. , Huang, J. -C. and Yang, W. -C. Neurocomputing, Volume 71, 3150–3157 (2008), doi:10.1016/j.neucom.2008.04.030

[2] [2]
Auto-association by multilayer perceptrons and singular value decomposition, H. Bourlard and Y. Kamp Biological, Cybernetics Volume 59, Numbers 4-5, 291-294, doi:10.1007/BF00332918

[3] [3]
Pierre Baldi. «Autoencoders, Unsupervised Learning, and Deep Architectures» (PDF).

[4] [4]
R, Srivignesh (2021-06-15). "Dimensionality Reduction using AutoEncoders in Python". Analytics Vidhya (به انگلیسی). Retrieved 2022-12-30.

[5] [5]
Wang, Yasi; Yao, Hongxun; Zhao, Sicheng (2016). "Auto-encoder based dimensionality reduction". Neurocomputing. 184: 232–242. doi:10.1016/j.neucom.2015.08.104. ISSN 0925-2312.

[6] [6]
Fournier, Quentin; Aloise, Daniel (2019). "Empirical comparison between autoencoders and traditional dimensionality reduction methods". 2019 IEEE Second International Conference on Artificial Intelligence and Knowledge Engineering (AIKE): 211–214. doi:10.1109/AIKE.2019.00044.

[7] [7]
Muaz, Urwa (2019-07-25). "Autoencoders vs PCA: when to use which ?". Medium (به انگلیسی). Retrieved 2023-01-30.

[8] [8]
"Autoencoders in Deep Learning: Tutorial & Use Cases [2022]". www.v7labs.com (به انگلیسی). Retrieved 2022-12-30.^{^{[پیوند مرده]}}

[9] [9]
neerajkrbansal1996 (2020-06-21), Denoising autoencoder Using Keras, retrieved 2023-01-30

[10] [10]
"Autoencoders in Deep Learning: Tutorial & Use Cases [2022]". www.v7labs.com (به انگلیسی). Retrieved 2022-12-30.^{^{[پیوند مرده]}}

[11] [11]
Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). "Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders". arXiv:1611.02648 [cs, stat].

[12] [12]
Hsu, Wei-Ning; Zhang, Yu; Glass, James (2017-09-22). "Unsupervised Domain Adaptation for Robust Speech Recognition via Variational Autoencoder-Based Data Augmentation". arXiv:1707.06265 [cs].

[13] [13]
میلاد وزان، یادگیری عمیق: اصول، مفاهیم و رویکردها، میعاد اندیشه، 1399

[14] [14]
«The Story of Autoencoders - Machine Learning Mindset» (به انگلیسی). ۲۰۲۱-۰۷-۱۸. دریافت‌شده در ۲۰۲۲-۱۲-۳۰.^{^{[پیوند مرده]}}

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]