From Wikipedia, the free encyclopedia
بازیابی اطلاعات (به انگلیسی: Information Retrieval) فعالیت بدست آوردن منابع سیستم اطلاعاتی که مربوط به اطلاعات لازم از یک مجموعه است را میگویند. جستجوها میتوانند برپایه جستجوی تمام متن یا سایر جستجوهای مبتنی بر محتوا نمایه گذاری شوند. بازیابی اطلاعات علم جستجو اطلاعات در یک سند، جستجو برای خود سندها، جستجو برای فرادادهها که دادهها را توصیف میکنند و برای پایگاه داده های متنی، عکسی یا آوایی است. سیستمهای بازیابی اطلاعات خودکار برای کاهش چیزی که آن را سرریز دادهها (اضافهبار اطلاعات یا در واقع ریزش کاذب) میگوییند، استفاده میشوند. سیستم بازیابی اطلاعات نرمافزاری است که دسترسی، ذخیره و مدیریت کتابها، مقالات و دیگر سندها را فراهم میکند.
موتورهای جستجوگر وب (موتور جستجوی وب) از قابل مشاهدهترین برنامههای کاربردی بازیابی اطلاعات هستند.
با افزایش روزافزون حجم اطلاعات ذخیرهشده در منابع قابل دسترس و گوناگون، فرایند بازیابی و استخراج اطلاعات اهمیت ویژهای یافتهاست. اطلاعات مورد نظر ممکن است شامل هر نوع منبعی مانند متن، تصویر، صوت و ویدئو باشد. بر خلاف پایگاه دادهها، اطلاعات ذخیره شده در منابع اطلاعاتی بزرگ مانند وب و زیرمجموعههای آن مانند شبکههای اجتماعی از ساختار مشخصی پیروی نمیکنند و عموماً دارای معانی تعریف شده و مشخصی نیستند. هدف بازیابی اطلاعات در چنین شرایطی، کمک به کاربر برای یافتن اطلاعات موردنظر در انبوهی از اطلاعات ساختار نایافتهاست.
جستجوگرهای گوگل، یاهو و بینگ سه نمونه از پراستفادهترین سیستمهای بازیابی اطلاعات هستند که به کاربران برای بازیابی اطلاعات متنی، تصویری، ویدئویی و غیره کمک میکنند.
«بازیابی اطلاعات» در برخی منابع فارسی به اشتباه به جای ذخیره و بازیابی دادهها که به معنای دانش شناخت رسانههای ذخیرهسازی فیزیکی است، به کار رفتهاست.
پردازش بازیابی اطلاعات زمانی شروع میشود که کاربر پرس و جو (query) را در سیستم وارد کند. پرس وجوها حالتی قراردادی از نیازهای اطلاعاتی هستند. برای مثال، رشتههای جستجو در موتورهای جستجوگر در وب را میتوان نام برد. در بازیابی اطلاعات، یک پرس و جو تنها یک شی منحصر به فرد را در مجموعه شناسایی نمیکند. درعوض، ممکن است با درجههای مختلفی از ارتباط، اشیاء متعددی با پرس و جو مطابقت داشته باشند.
یک شیء یک موجودیت است که در مجموعه ای از محتواها یا پایگاه داده نمایش داده میشود. پرس و جوهای کاربر با اطلاعات بانک اطلاعاتی مطابقت داده میشوند. اگرچه بر خلاف پرس و جوهای کلاسیک پایگاه دادهٔ SQL، در بازیابی اطلاعات نتایج ممکن است با پرس و جو مطابقت داشته باشند یا نداشته باشند، بنابراین نتایج بهطور معمول رتبهبندی میشوند. این رتبهبندی نتایج یک تفاوت کلیدی در جستجوی بازیابی اطلاعات در مقایسه با جستجوی پایگاه دادهاست.[1]
بسته به نوع برنامه بازیابی اطلاعات، اشیاء داده ممکن است به عنوان مثال اسناد متنی، تصاویر،[2] آواها،[3] نقشههای ذهنی[4] یا ویدیوها باشند. اغلب، اسناد خودشان به صورت مستقیم در سیستم بازیابی اطلاعات ذخیره نمیشوند، اما در عوض در سیستم با اسناد جایگزین یا ابرداده نمایش داده میشود. اکثر سیستمهای بازیابی اطلاعات یک مقدار عددی را برای هر عنصر محاسبه میکنند که چه میزان با پرس وجو مطابقت دارند، و اشیا را با توجه به این مقدار رتبهبندی میکنند، سپس برترین شیءها را از نظر رتبه به کاربر نمایش میدهند. این فرایند میتواند تکرار شود اگر، کاربر بخواهد پرس و جو را اصلاح کند.[5]
یک دستگاه بهنام uivac وجود دارد … به طوری که حروف و ارقام به عنوان الگویی از لکههای مغناطیسی برروی نوار فولادی طولانی رمزگذاری میشوند. باتوجه به این مسئله متن یک سند پیش از موضوع سمبلیک آن میتواند ثبت شود، این دستگاه بهطور خودکار آن منابعی را که بههر ترتیب ۱۲۰ کلمه در دقیقه کدگذاری شدهاست، انتخاب و نمایش میدهد.
— J. E. Holmstrom, 1948
ایده استفاده از کامپیوتر برای جستجو اطلاعات موردنظر در مقالهٔ As We May Think در سال ۱۹۴۵ توسط ونیوار بوش، ارائه شد.[6] بنظر میرسد که بوش از اختراع ماشینهای آماری که توسط امانوئل گلدبرگ در دهه ۱۹۲۰ و ۳۰ (میلادی) ثبت شده بود الهام گرفتهاست، که آن اختراع به دنبال اسنادی که در فیلم ذخیره شده بودند میگشت.[7] اولین توصیف در مورد کامپیوتری که به دنبال اطلاعات میگردد در سال ۱۹۴۸ توسط holmstorm ارائه شد؛ که جزئیات ذکر شده در مورد نسل اول کامپیوترهای تجاری[8] که بر اساس جزئیات اولیه کامپیوترهای UNIVACبود. سیستمهای بازیابیاطلاعات خودکار در دهه ۱۹۷۵ معرفی شدند، که حتی یکی از آنها در یک کمدی عاشقانه به نام میز برجسته شد. در دهه ۱۹۶۰، نخستین گروه تحقیقاتی بزرگ بازیابی اطلاعات توسط جرارد سالتون در دانشگاه کرنل تشکیل شد. در سال ۱۹۷۰ چندین تکنیک بازیابی بر روی پیکره متنی مانند مجموعه کرانفیلد ارائه شد (چندین هزار سند) سیستمهای بازیابی در مقیاس بزرگ مانند سیستم گفتگو لاکهید در اوایل دهه ۷۰ میلادی استفاده شد.
در سال ۱۹۹۲، وزارت دفاع ایالات متحده همراه مؤسسه ملی فناوری و استانداردها(NIST)، با همکاری یک دیگر به عنوان بخشی از برنامه متنی TIPSTER از کنفرانس بازیابی اطلاعات(TREC) پشتیبانی کردند؛ که هدف از آن این بود که با جمعآوری زیرساختهایی که برای ارزیابی روشهای بازیابی متن در یک مجموعه متن بسیار بزرگ مورد نیاز بود، جامعه بازیابی اطلاعات بررسی شود؛ که باعث تسریع تحقیقاتی شد که برروی متدهایی که در مقیاسپذیری بزرگی از مجموعه نوشتهها انجام میگرفت که در پی آن معرفی موتورهای جستجو گر وب سرعت گرفت و حتی نیاز برای سیستمهای بازیابی اطلاعات که دارای مقیاس بزرگی بودند بیشتر شد.
مدلسازی مفهومی اطلاعات، یکی از فنون تجزیه و تحلیل و تشریح اطلاعات مورد نیاز کاربران سیستم است. در تجزیه و تحلیل اطلاعات باید ذهن خود را بر شناخت مفهومی اطلاعات متمرکز ساخت. در تشریح ماهیت اطلاعات باید از جملات موجز، دقیق و خوانا استفاده کرد. از آنجایی که تشریح اطلاعات، راهنمای طراحی پایگاه اطلاعاتی بهشمار میآید باید برای کاربران، برنامه نویسان و سایر متخصصان فنی خوانا باشد. زیرا راهنمای طراحی پایگاه اطلاعاتی بهشمار میآید. از آنجایی که هر سیستم کاربران متعددی دارد و آنان نیز از داده و بازدادههای گوناگون استفاده میکنند و همچنین تحلیلگر معمولاً با سیستم آشنا نیست و ضمن تجزیه و تحلیل و تشریح با آن آشنا میشود تشریح اطلاعات برای سیستم دشوار است. تشریح اطلاعات برای پاسخگویی به نیازهای «فرایند سیستم» باید به صورت تفضیلی صورت پذیرد و در عین حال از کلیتی برخوردار باشد که به تشکیل یک پایگاه اطلاعاتی منجر شود و نیازهای کلی سازمان را در بعد اطلاعات برآورده سازد؛ و چون تا این مرحله به اندازه کافی کار طراحی آسان شدهاست تحلیلگر باید تشریح اطلاعات را در محدوده زمانی و بودجهای پروژه مکتوب نماید. اکنون این پرسش ممکن است مطرح شود که چرا «نمودار جریان اطلاعات» شرح کاملی از اطلاعات ارائه نمیدهد؟ پاسخ این است که نمودار جریان اطلاعات تنها چگونگی بکارگیری اطلاعات در فرایندهای سیستم را نشان میدهد و روابط مورد نیاز میان موجودیتهای سازمان را به نمایش نمیگذارد. بدین ترتیب پایگاه اطلاعاتی مبتنی بر یک نمودار جریان اطلاعات نمیتواند از شاخص روانی سازمانی برخوردار باشد. از سوی دیگر، مدل مفهومی اطلاعات، تحلیلگر را تشویق مینماید تا تحلیل اطلاعات را بر مبنای نیازهای سازمان و از دید کاربرای یا نحوه تجسم ذهنی آنان قرار دهد. شرح تفصیلی نیازهای اطلاعاتی سیستم مانند بازدادهها و غیره بعداً به مدل افزوده خواهد شد. از آنجایی که مدل مفهومی، اطلاعات را از دید سازمان تشریح میکند نه از دید فرایندهای تفصیلی سیستم بنابراین پایگاه اطلاعاتی حاصل از آن با نیازهای اطلاعاتی سازمان قابلیت انطباق بیشتری خواهد داشت. تشریح اطلاعات با استفاده از مدل مفهومی مستلزم موارد زیر است:
نخستین گام در بازیابی اطلاعات، مدلسازی اطلاعات و توصیف و تعریف ارتباط موجود میان اجزاء منبع اطلاعاتی با نیازهای اطلاعاتی کاربر است. سه مدل مهم در حوزهٔ بازیابی اطلاعات عبارت است از:
بعد از تعریف مدل، سیستم آمادهٔ دریافت نیاز اطلاعاتی کاربر است. معمولاً کاربران نیاز اطلاعاتی خود را در قالب یک «پُرسه» برای سیستم بیان میکند که معمولاً شامل چندین کلمات یا عبارات است. سیستم سپس بر اساس مدلی که اطلاعات بر اساس آن تعریف شدهاند، میزان ربط هر سند را با پُرسهٔ کاربر محاسبه میکند، و سندهایی را که از همه باربط تر تشخیص داده شدهاند به عنوان نتیجهٔ بازیابی بازمیگرداند. انواع مدل:
در مدل دودویی، نیاز اطلاعاتی کاربر به صورت عبارتی منطقی با عملگرهای AND و OR و NOT بیان میشود و هر سندی که این عبارت در مورد آن صحیح باشد بازیابی میشود. مثلاً اگر نیاز اطلاعاتی به صورت Iran AND Oil بیان شود، تمامی اسنادی که هردو کلمهٔ Iran و Oil را دربردارند به کاربر نمایش داده میشوند. در مدل دودویی سند یا باربط است یا نیست، و هیچ معیاری برای سنجش میزان (درجهٔ) ربط وجود ندارد. مثلاً دو سند را در نظر بگیرید که یکی تماماً دربارهٔ ایران و نفت بحث میکند، و دیگری در مورد اقتصاد جهانی صحبت میکند و فقط از نام ایران و نفت به عنوان مثالی در یک جمله استفاده کردهاست. سیستمی که از مدل دودویی استفاده کرده تفاوتی بین این دو سند قائل نخواهد شد. در صورتیکه در واقع سند اول بیشتر به نیاز کاربر مربوط است.
در مدل برداری، برای سنجش میزان ربط اسناد و نیاز اطلاعاتی کاربر، سیستم اسناد موجود و پُرسهٔ کاربر را در فضای چند بعدی مدلسازی میکند. در نتیجه برای سنجش میزان شباهت میان بُردار پُرسه و بردار هر سند میتوان از زاویهای که این دو بردارها با هم میسازند استفاده کرد. اسنادی که بردارشان با بردار پرسهٔ کاربر زاویه کوچکتری میسازد بیشتر با نیاز اطلاعاتی کاربر هم جهت هستند و در نتیجه مرتبطتر خواهند بود. برتری این مدل این است که به سیستم امکان درجهبندی میزان ارتباط اسناد با پرسه را میدهد.
این مدل نخستین بار توسط استیو رابرتسن و کارن اسپارک جونز در سالهای ۱۹۷۰ معرفی شد. این مدل به لحاظ اینکه مدارک و پرسشها را به صورت بردار عرضه میکند شبیه مدلبرداری است، اما به جای بازیابی مدارک براساس میزان مشابهت با پرسش، مدارک را براساس احتمال ارتباطشان با پرسش بازیابی میکند. احتمال ربط مدرکی خاص به پرسش را میتوان با جمع اوزان ربط اصطلاحات آن مدرک، یعنی برآورد احتمال ظهور اصطلاحات موجود در پرسش و در مدرک مرتبط، و نه در مدرک غیرمرتبط، محاسبه کرد. در مدل بازیابی کلاسیک احتمالی، این احتمالات اصطلاح از طریق مجموعهای نمونه از مدارک و پرسشها همراه با قضاوت مرتبط مربوط به آن تخمین زده میشود. با وجود این، اجرای فرایند تخمین به صورت عملیاتی مشکل است، زیرا جمعآوری دادههای ربط لازم قبل از جستجوی واقعی عملاً غیرممکن است. در نتیجه، برای تخمین احتمال اصطلاح، معمولاً، در این مدل از بازخورد ربط استفاده میکنند.
در مدل احتمالاتی هم به ازای هر نیاز اطلاعاتی، تمامی اسناد بر اساس احتمال این که با نیاز اطلاعاتی مرتبط باشد مرتب میشوند و لیست اسناد در نهایت به صورت درجهبندی شده (مانند مدل برداری) به کاربر نمایش داده میشود، به نحوی که اولین سندی که کاربر میبیند از همه بیشتر احتمال دارد که به نیاز او ربط داشته باشد.
بین بازیابی اطلاعات و بازیابی داده تفاوتهای زیادی وجود دارد. دادهها ابهام ندارند، اما اطلاعات نیاز به تفسیر دارد و در نتیجه مبهم میشوند. سیستمی که برای بازیابی داده طراحی شده نیازی به رفع این ابهامها ندارد، اما در سیستم بازیابی اطلاعات باید هر چه بهتر اطلاعات را مدل کرد تا ابهام در درک اطلاعات توسط سیستم کمتر شوند. به همین علت بر خلاف سیستمهای بازیابی داده که در آن کارایی سیستم از نظر سرعت و فضا به عنوان معیار ارزیابی در نظر گرفته میشود، در سیستمهای بازیابی اطلاعات، معیار دقت (precision) و بازخوانی (recall) و معیارهایی شبیه به آنها به عنوان معیارهای اصلی ارزیابی به کار میروند.
بازاریابی به عنوان جنبهای از مدیریت این توانایی را دارد که به مدیران کتابخانهها و مراکز اطلاعرسانی جهت درک و شناخت هر چه بهتر نیازهای مراجعان خود، یاری رساند. چنین دانشی به مدیران کمک خواهد کرد تا در عرصههای مدیریتی تصمیماتی صحیح اتخاذ نمایند و از این طریق بتوانند خدمات مؤثرتر و مفیدتری به کاربران خود ارائه نمایند.
بازیابی اطلاعات درایو حالت جامد پیچیده تر از بازیابی اطلاعات HDD است. استفاده از فناوری کنترل کننده در درایوهای SSD ، بازیابی اطلاعات SSD را پیچیده تر می کند.[9]
با توجه به فرآیند تخصصی بازیابی اطلاعات هارد بسیاری از کاربران قادر به انجام آن نیستند. اما شاید بتوانید با استفاده از اطلاعاتی که در ادامه به شما ارائه میدهیم، دادههای از دست رفته را مجددا بازیابی کنید. پیش از هر چیز دو نکته بسیار مهم زیر را در نظر بگیرید:
در برخی موارد هارد در ویندوز شناسایی نمیشود. هنگام بروز این مشکل برای بازیابی اطلاعات هارد:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.