معالجة مسبقة للبيانات

تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي.^[1] في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي.^[2]

إذا كان هناك الكثير من المعلومات غير ذات الصلة أو الزائدة عن الحاجة أو البيانات المشوشة وغير الموثوق بها، فإن اكتشاف المعرفة خلال مرحلة التدريب يكون أكثر صعوبة. يمكن أن تستغرق خطوات إعداد البيانات،تصفيتها مقدارًا كبيرًا من وقت المعالجة. تتضمن معالجة البيانات الأولية التنظيف، واختيار الحالات، والتحسين، والتحويل، واستخلاص الخصائص واختيارها، وما إلى ذلك. النتيجة النهائية لمعالجة البيانات هو مجموعة التدريب النهائية.^[3]

[1]

[2]

[3]