زاحف ويب
من ويكيبيديا، الموسوعة encyclopedia
زاحف الويب (بالإنجليزية: Web crawler) هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآلية ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت.[1]، وعناكب الشبكة [2]، أو آليات الشبكة.[2] وهذه العملية تسمى الزحف على الشبكة أو العنكبة.
كثير من المواقع، وبخاصة محركات البحث، تستخدم العنكبة كوسيلة لتوفير بيانات حديثة. وزواحف الشبكة تستخدم أساسا لإنشاء نسخ من جميع الصفحات التي يتم زيارتها لكى يفهرسها محرك البحث في وقت لاحق ويحمل الصفحات أثناء عمليات البحث بسرعة. ويمكن أيضا أن تستخدم الزواحف لاتمام مهام الصيانة على موقع علي الشبكة، مثل التحقق من صحة الروابط أو تعليمات لغة تحرير النص الفائق البرمجية. أيضا، يمكن استخدام الزواحف لجمع أنواع محددة من المعلومات من صفحات الشبكة، مثل حصاد عناوين البريد الإلكتروني (عادة لارسال رسائل غير المرغوب فيها).
وزاحف الشبكة هو أحد أنواع البوتات، أو وكلاء البرامج. بشكل عام، يبدأ زاحف الشبكة بقائمة من العناوين المرغوب في زيارتها، وتدعى هذه القائمة بالبذور. عندما يزور الزاحف هذه العناوين، فإنه يحدد كافة الارتباطات التشعبية في الصفحة ويضيفها إلى قائمة العناوين المطلوب زيارتها، وتدعى حدود الزحف. وتتم زيارة عناوين حدود الزحف بشكل متكرر وفقا لمجموعة من السياسات.
بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها.
و عدد العناوين القابلة للزحف والتي تتولد من جانب البرمجيات الخادمة للمواقع على الشبكة جعلت من الصعب تجنب استرجاع محتويات مكرره أثناء الزحف على شبكة الإنترنت. يوجد تركيبات لانهائية من العناوين القائمة على أساس بروتوكول نقل النص الفائق، ولكن في الحقيقة لا يوجد سوى مجموعة صغيرة منها تعيد محتوى فريد. على سبيل المثال، قد يقدم عارض مبسط الصور على الإنترنت ثلاثة خيارات للمستخدمين، على النحو المحدد من خلال معلمات بروتوكول نقل النص الفائق في العنوان. إذا كان هناك أربع طرق لفرز الصور، وثلاثة خيارات لحجم الصورة المصغرة، وطرقتين لتنسيق الملفات، بالإضافة إلى خيار لتعطيل المحتوى القادم من المستخدم، فنفس المجموعة من محتوى يمكن الوصول إليها من خلال 48 عناوين مختلفة، كل منها على الموقع. هذا التوافق الرياضي يخلق مشكلة للزواحف، لأنها يجب أن تفرز من خلال تركيبات لا تنتهي من تغييرات طفيفة نسبيا في لغة البرمجة من أجل استرداد محتوى فريد من نوعه. ويجب أن يختار الزاحف بعناية في كل خطوة الصفحات التي تلي في الزيارة.