Remove ads
מוויקיפדיה, האנציקלופדיה החופשית
משתנה איכותי (או משתנה קטגורי) הוא משתנה בסטטיסטיקה הנמדד בסולם מדידה שמי או סולם מדידה סודר. הערכים של משתנים כאלה נקבעים בדרך כלל על ידי תכונה איכותית, כלומר תכונה שלא ניתן למדוד באופן כמותי.
דוגמאות למשתנים הנמדדים בסולם מדידה שמי:
ניתן לקודד את הערכים של משתנים מסוג זה במספרים, אך לערך המקודד אין שום משמעות. למשל, הקידוד זכר=1, נקבה=2, אינו שונה באופן מהותי מהקידודים נקבה=1, זכר=2 או נקבה=0, זכר=1 וכדומה.
דוגמאות למשתנים הנמדדים בסולם מדידה סודר:
מקרה מיוחד הוא משתנה ספירה. משתנה כזה בדרך כלל סופר את מספר האירועים שהתרחשו (למשל מספר הלידות שאירעו במקום מסוים במשך תקופת זמן מוגדרת), או את מספר ההצלחות בסדרת ניסויים גדולה עם הסתברות נמוכה להצלחה בכל ניסוי (למשל, מספר הזוכים בהגרלת כגון הגרלת הפאוורבול, שבה יש מספר גדול של משתתפים ולכל משתתף הסתברות זעירה לזכייה בפרס הגדול). התפלגותם של משתנים כאלה היא בדרך כלל התפלגות פואסון או התפלגות בינומית שלילית. כאן לערכים יש משמעות מספרית, כולל לערך 0, ולכן זהו למעשה משתנה הנמדד בסולם מנה. עם זאת, לעיתים נוח וכדאי לנתח משתנה כזה בשיטות ניתוח המתאימות לניתוח משתנים קטגוריים.
לעיתים יוצרים משתנה קטגורי על ידי קביעת טווחים של משתנה כמותי. על ידי כך נוצר משתנה בסולם מדידה סודר. למשל, ערך של בדיקת מעבדה כלשהי יכול להיות מסווג כ-"מתחת לנורמה", "בתחום הנורמה" או "מעל לנורמה".
כאשר דנים בנתונים של משתנה קטגורי שמי, מדד המיקום המרכזי האפשרי היחידי עבור משתנה כזה הוא השכיח. למדידת רמת הפיזור של משתנה קטגורי שמי ניתן להשתמש במדדים כגון האנטרופיה או מדד ג'יני.[1]
כאשר מדובר בנתונים של משתנה מסולם סודר, ניתן בנוסף לחשב את החציון ושברונים נוספים, כגון רבעונים ועשירונים. ערכי האחוזונים מאפשרים גם הערכה של רמת הפיזור, אך יש לזכור כי אין משמעות למדדים המבוססים על הפרשים בין האחוזונים, כגון התחום הבין רבעוני.
קיימים מספר מדדים להערכת עוצמת הקשר הסטטיסטי בין משתנים קטגוריים לבין עצמם, או בין משתנים קטגוריים ומשתנים מסולם מדידה גבוה יותר. למדידת עצמת הקשר בין שני מדדים קטגוריים ניתן להשתמש במדדים כגון מתאם קרמר, מקדם Q שהוצג על ידי אדני יול, מקדמי המתאם הטטרהכורי והפוליכורי שפותחו על ידי קרל פירסון, ומדדים רבים נוספים.[2]
למדידת עוצמת הקשר בין שני משתנים מסולם מדידה סודר ניתן להשתמש במקדם המתאם של ספירמן, ולמדידת עוצמת הקשר בין משתנה קטגורי למשתנה כמותי ניתן להשתמש במקדם המתאם התוך-אשכולי (Intraclass correlation).
קיימות שתי גישות עיקריות לניתוח היסקי של נתונים המתקבלים ממשתנים קטגוריים.
גישה אחת מתמקדת בהתפלגות של המשתנה הקטגורי, או בהתפלגות המשותפת של מספר משתנים קטגוריים. על פי גישה זו מניחים מודל התפלגותי, אומדים את הפרמטרים של המודל, ובודקים את טיב ההתאמה של המודל לנתונים.
דוגמה פשוטה לגישה זו היא מודל המניח אי תלות בין שני משתנים קטגוריים. הנחת המודל היא כי עבור שני משתנים קטגוריים, ו-, ההתפלגות המשותפת של שני המשתנים שווה למכפלת ההתפלגויות השוליות של כל אחד מהמשתנים, כלומר לכל זוג ערכים ו- שהמשתנים ו- יכולים לקבל.
ניתן לבדוק את טיב ההתאמה של מודל זה (או כל מודל אחר) לנתונים בעזרת מבחן כי בריבוע.
ייתכנו מצבים בהם ו- אינם בלתי תלויים. במקרים אלו, יש להציע מודל למבנה התלות בין המשתנים. גישה נפוצה היא המודל הלוג-ליניארי[3] שפותח על ידי איבון בישופ. גישות לא ליניאריות הוצגו על ידי ליאו גודמן.[4]
הגישה העיקרית השנייה היא יישום של מודל רגרסיה, בו המשתנה המוסבר הוא משתנה קטגורי, והמשתנים המסבירים יכולים להימדד בכל סולם מדידה. בין המודלים הנפוצים לניתוחים מסוג זה ניתן למנות את מודל הרגרסיה הלוגיסטית והרחבותיו: הרגרסיה המולטינומית והרגרסיה האורדינלית.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.