Loading AI tools
מוויקיפדיה, האנציקלופדיה החופשית
בסטטיסטיקה, חריג חשוד טעות (באנגלית: Outlier) הוא ערך של מדידה השונה באופן קיצוני מהרוב הגדול של הערכים וחשוד כערך שהתקבל עקב שגיאת מדידה או שגיאה בהבנת התופעה הנמדדת.
על מנת להחליט בצורה מבוססת מידע אילו תוצאות הן חריגות, פותחו עם השנים מדדים שונים.
למשל נהוג להסתכל עד כמה תצפית חריגה במונחים של השפעה על מודל. דוגמה למדד שכזה הוא הנפה.
אפשרות אחרת היא מדידה פשוטה של מרחק ערכי משתנה של תצפית מממוצע הערכים של כלל התצפיות באותו המשתנה. מרחק זה נהוג לחשב ביחידות מתוקננות, ולהסיר תצפיות העוברות מרחק קבוע מראש כמו שתיים וחצי או שלוש סטיות תקן.
לאופן ההגדרה של תצפית חורגת יש השפעה על המסקנות המוסקות מן המידע, ולחוקרים יש שיקול דעת רחב יחסית בנושא. לפיכך, כיום בתחומים מסוימים נהוג להצהיר לפני ביצוע מחקרים על השיטה בה מוגדרים תצפיות כחריגות על מנת להימנע ממצב של פשפוש בנתונים. דרישה זו הפכה נפוצה כחלק מתגובה למשבר השחזור.
דוגמה לערך חריג שלא ברור אם הוא שגוי: לפי הערכות תוחלת החיים של ה־CIA לקראת שנת 2010[1] למדינות וישויות מדיניות (ישויות כמו "העולם", "האיחוד האירופי" ו"רצועת עזה"), תוחלת החיים המולדת במונקו היא 89.78 שנים. דהיינו ה־CIA מעריך שמי שייוולד במדינה זו ובשנה זו ימות בממוצע, חודשיים וחצי לפני שיגיע לגיל תשעים. הערכה זו נראית שגויה משום ש:
מאידך, הערכה זו נראית נכונה משום ש:
דוגמה לערך חריג שברור שהוא שגוי: דיווח על תוצאה של 1000 במבחן בגרות. דיווח כזה חייב להיות שגוי משום שהציון המקסימלי במבחני הבגרות הוא 100. ניתוח תוצאות מבחן הבגרות של שלושים נדגמים, שאחד מהם דיווח על ציון 1000, עשוי להיות מעוות מאוד. אם ממוצע הציונים של שאר 29 התלמידים הוא 70, הרי שהממוצע של כל השלושים יחדיו הוא 30/(70*29 +1000)= 101.
כאשר נתקלים בערך חריג חשוד שגיאה בעת מחקר, יש לדווח עליו ולנמק את המשך ניתוח המידע בלעדיו. הנימוק חייב לכלול הן את הסיבה לחשד שהנתון לא יכול להיות אמיתי והן את תוצאת המדד לעיוות תוצאות המחקר על ידו. מדד כזה מבוסס על חישוב ממוצע התוצאות עם ובלי הקיצון השקרי.
יש לזכור שלא כל תוצאה חריגה היא שגויה. אם 29 איש מדווחים שיש להם בארנק 70 שקלים בממוצע ואדם נוסף מדווח שיש לו 1000 שקלים בארנק, אזי הדיווח שלו אינו בהכרח שקרי. במקרה כזה, טיפול בתוצאות בלא עיוותן יכול לכלול מעבר משימוש בממוצע לשימוש בחציון או חלוקת טווח התוצאות לתת־טווחים ומציאת שכיחותם של תת־טווחים אלה. לדוגמה: החציון עשוי להיות 65 שקלים ושכיחות תת־הטווחים עשויה להיות 20 איש עם פחות מ־66 שקלים, שמונה עם 66 עד 96 שקלים ו־3 עם 97 שקלים ומעלה.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.