معالجة مسبقة للبيانات
خطوة مهمة في عملية التنقيب عن البيانات من ويكيبيديا، الموسوعة الحرة
خطوة مهمة في عملية التنقيب عن البيانات من ويكيبيديا، الموسوعة الحرة
تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي.[1] في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي.[2]
إذا كان هناك الكثير من المعلومات غير ذات الصلة أو الزائدة عن الحاجة أو البيانات المشوشة وغير الموثوق بها، فإن اكتشاف المعرفة خلال مرحلة التدريب يكون أكثر صعوبة. يمكن أن تستغرق خطوات إعداد البيانات،تصفيتها مقدارًا كبيرًا من وقت المعالجة. تتضمن معالجة البيانات الأولية التنظيف، واختيار الحالات، والتحسين، والتحويل، واستخلاص الخصائص واختيارها، وما إلى ذلك. النتيجة النهائية لمعالجة البيانات هو مجموعة التدريب النهائية.[3]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.