From Wikipedia, the free encyclopedia
طبقهبندی تصاویر متنی (به انگلیسی: Contextual image classification)، شاخه ای از بینایی کامپیوتری برای تشخیص الگو، رویکردی از طبقهبندی بر اساس اطلاعات متنی در تصاویر است. «متنی» به این معنی است که این رویکرد بر رابطه پیکسلهای نزدیک متمرکز است که به آن همسایگی نیز میگویند. هدف این رویکرد طبقهبندی تصاویر با استفاده از اطلاعات متنی است.
همانند پردازش زبان طبیعی ، یک کلمه ممکن است معانی متعددی داشته باشد، مگر اینکه اطلاعات جانبی و زمینه تصویر نیز ارائه شود، الگوهای درون جملات تنها بخش های حاوی اطلاعات هستند که ما به آنها اهمیت می دهیم. برای تصاویر نیز اصول به همین شکل است. تنها کافیست الگوها را بیابید و معانی مناسب را به آنها مرتبط کنید.
همانطور که در تصویر زیر نشان داده شده است، اگر تنها بخش کوچکی از تصویر نشان داده شود، تشخیص اینکه تصویر در مورد چیست بسیار دشوار است.
حتی بخش دیگری از تصویر را امتحان کنید، باز هم طبقه بندی تصویر دشوار است.
با این حال، اگر زمینه تصویر را افزایش دهیم، تشخیص آن راحت تر می شود.
همانطور که تصاویر کامل در زیر نشان می دهد، تقریباً همه می توانند آن را به راحتی طبقه بندی کنند.
در طول فرآیند تقسیمبندی تصاویر، روشهایی که از اطلاعات زمینهای استفاده نمیکنند به نویز و پراکندگی حساس هستند، بنابراین نتیجه تقسیمبندی تعداد زیادی از مناطق طبقهبندیشده اشتباه است و اغلب این مناطق کوچک هستند (مثلاً یک پیکسل).
در مقایسه با سایر تکنیکها، این رویکرد در مقابل نویز، قوی است و تغییرات قابلتوجهی دارد زیرا پیوستگی بخشها را در نظر میگیرد.
چندین روش از این رویکرد در ادامه توضیح داده خواهد شد.
این رویکرد در برابر مناطق کوچک ناشی از نویز بسیار موثر است. و این مناطق کوچک معمولاً توسط یک یا چند پیکسل تشکیل می شوند. در این رویکرد محتمل ترین برچسب به این مناطق اختصاص داده شده است. با این حال، این روش یک اشکال دارد. نواحی کوچک نیز میتوانند توسط نواحی صحیح به جای نویز تشکیل شوند و در این مورد این روش در واقع طبقهبندی را بدتر میکند. این رویکرد به طور گسترده در برنامه های سنجش از راه دور استفاده می شود.
در این رویکرد، یک فرآیند طبقه بندی دو مرحله ای انجام می شود:
به جای استفاده از تک پیکسل ها، پیکسل های همسایه را می توان در مناطق همگن با بهره مندی از اطلاعات متنی ادغام کرد و این مناطق را به طبقه بندی کننده ارائه دهید.
دادههای طیفی اصلی را میتوان با افزودن اطلاعات زمینهای که در پیکسلهای همسایه دیده میشود، غنیسازی کرد یا حتی در برخی موارد جایگزین کرد. این نوع روش های پیش پردازش به طور گسترده ای در تشخیص تصویر بافت دار (به انگلیسی: Image texture) استفاده می شود. رویکردهای معمولی شامل مقادیر میانگین، واریانس ها، توصیف بافت و غیره است.
طبقهبندیکننده از سطح خاکستری و همسایگی پیکسل (اطلاعات متنی) برای اختصاص برچسبها به پیکسلها استفاده میکند. در چنین حالتی اطلاعات ترکیبی از اطلاعات طیفی و مکانی است.
طبقهبندی متنی دادههای تصویر بر اساس طبقهبندیکننده حداقل خطای بیز (همچنین به عنوان دستهبندیکننده بیز ساده شناخته میشود.) انجام می شود.
پیکسل را ارائه دهید:
نحوه محاسبات :
حداقل طبقه بندی خطا را روی یک پیکسل اعمال کنید، اگر احتمال اینکه یک کلاس پیکسل را ارائه دهد بالاترین در بین همه باشد. ، سپس را به عنوان کلاس آن اختصاص دهید.
قانون طبقه بندی متنی به صورت زیر توضیح داده شده است که از بردار ویژگی به جای استفاده می کند.
از قانون بیز برای محاسبه احتمال پسین (به انگلیسی: posteriori) استفاده کنید :
تعداد بردارها با تعداد پیکسل های تصویر برابر است. برای طبقهبندیکننده از بردار مربوط به هر پیکسل استفاده میکند و این بردار از همسایگی پیکسل تولید میشود.
مراحل اساسی طبقه بندی تصاویر متنی:
تطابق الگو یک پیاده سازی با نگرش برنامه سازی پرقدرت (به انگلیسی: brute force) از این رویکرد است [1]. ایده این الگوریتم به این شکل است که ابتدا مجموعه ای از الگوها ایجاد می شود و سپس به دنبال قسمت های کوچک در تصویر مطابقت با یک الگو می رویم.
این روش از نظر هزینه محاسباتی ناکارآمد است. در این روش، یک لیست کامل الگوها را در طول کل فرآیند نگه داشته می شود و تعداد ترکیب ها بسیار زیاد است. برای یک تصویر پیکسلی ، میتواند حداکثر ترکیب وجود داشته باشد که منجر به محاسبات بالا میشود. این روش یک روش بالا به پایین است و اغلب به آن جدول جستجو یا جستجو گفته می شود.
زنجیره مارکوف [2] همچنین می تواند در تشخیص الگو اعمال شود. پیکسل های یک تصویر را می توان به عنوان مجموعه ای از متغیرهای تصادفی تشخیص داد، سپس از زنجیره مارکوف مرتبه پایین برای یافتن رابطه بین پیکسل ها استفاده کرد. تصویر به عنوان یک خط مجازی در نظر گرفته می شود و این روش از احتمال شرطی استفاده می کند.
منحنی هیلبرت در یک الگوی منحصربهفرد در کل تصویر اجرا میشود، هر پیکسل را بدون این که دوبار بازدید کند، طی میکند و یک منحنی پیوسته را حفظ میکند. این الگوریتم بسیار سریع و کارآمد است.
زنجیره مارکوف مرتبه پایین و منحنی های پرکننده فضا هیلبرت که در بالا ذکر شد، تصویر را به عنوان یک ساختار خطی در نظر می گیرند. شبکه های مارکوف با این حال اطلاعات دو بعدی را در نظر می گیرند.
درخت وابستگی [3] روشی است که از وابستگی اجزای درخت برای تقریب توزیعهای احتمال استفاده میکند.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.