Loading AI tools
מוויקיפדיה, האנציקלופדיה החופשית
בסטטיסטיקה, ניתוח רגרסיה הוא שם כולל למשפחה של מודלים סטטיסטיים להערכת הקשרים בין משתנים. המשותף לכל המודלים הוא קיומם של משתנה מוסבר (המכונה לעיתים בשם המשתנה התלוי) ומשתנה מסביר אחד או יותר (המכונים לעיתים בשם המשתנים הבלתי תלויים או המשתנים המנבאים)[1]. בעזרת מודל רגרסיה ניתן ללמוד כיצד ערכו של המשתנה המוסבר משתנה כאשר חל שינוי בערכו של אחד המשתנים המסבירים, וערכי שאר המשתנים המסבירים נשארים קבועים. עם זאת, אין בכך די כדי להסיק סיבתיות: השינוי בערכו של המשתנה המסביר לא בהכרח גורם לשינוי בערכו של המשתנה המוסבר.
מבחינה הסתברותית, מודל הרגרסיה אומד בדרך כלל את התוחלת המותנית של המשתנה המוסבר בהינתן המשתנים המסבירים. עם זאת קיימים מודלים האומדים פרמטרי מיקום אחרים של המשתנה המוסבר, או פונקציה של התוחלת, מותנה במשתנים מסבירים.
מודלים של רגרסיה משמשים לעיתים קרובות לצורך חיזוי ערכים של המשתנה המוסבר במצבים שונים הנקבעים על ידי ערכי המשתנים המסבירים. ישנם מודלים שמאפשרים סיווג של המשתנה המוסבר למספר קבוצות (למשל, בהינתן תוצאות של בדיקות רפואיות, תוצאת המודל היא קביעה האם האדם הוא בריא או חולה). כאן יש חפיפה רבה בין המודלים הסטטיסטיים ובין התחום של למידת מכונה. שימוש נפוץ נוסף למודלים של רגרסיה הוא לבחון את מהות הקשרים בין המשתנים המסבירים (או חלקם) ובין המשתנה המוסבר. במקרים מסוימים ניתן להשתמש במודלים של רגרסיה לצורך הסקה סיבתית מהמשתנים המסבירים אל המשתנה המוסבר, אך יש לבחון היטב את ההנחות עליהן מתבססת הסקת הסיבתיות.
כמו מודלים סטטיסטיים אחרים, גם מודלים של רגרסיה מבוססים על התהליך שבו נוצרו הנתונים של המשתנה המוסבר. מאחר שבדרך כלל פרטי התהליך אינם ידועים, המודלים נשענים על הנחות, שלא כולן בהכרח ניתנות לבדיקה. הרגישות של המודל להפרת ההנחות שונה ממודל למודל, ואף תלויה בתכלית שלשמה המודל מיועד (למשל, כאשר רמת הדיוק הנדרשת מהתחזיות אינה גבוהה מאוד).
מודל הרגרסיה המוקדם ביותר היה מודל הריבועים הפחותים, שפורסם על ידי לז'נדר בשנת 1805[2] ועל ידי גאוס ב-1809[3]. עם זאת, ידוע כי גאוס פיתח את המודל כבר ב-1801 או לפני כן, וזאת מתוך החישובים שערך לגבי מסלולו של האסטרואיד קרס. ב-1821 פרסם גאוס תאוריה מורחבת של מודל הריבועים הפחותים[4], שכללה את הגרסה המוקדמת למשפט גאוס-מרקוב.
המושג "רגרסיה" נטבע על ידי פרנסיס גולטון (Francis Galton) בהקשר של תופעות ביולוגיות. תצפיותיו של גולטון העלו כי בנים לאנשים גבוהים אמנם היו גבוהים יחסית אך בדרך כלל פחות גבוהים מהוריהם. גולטון כינה תופעה זו בשם "רגרסיה לממוצע"[5]. מודל הרגרסיה של גולטון היה ויזואלי, וכלל שרטוט של ערכי המשתנה המוסבר והמשתנה המסביר (היחיד) על מערכת צירים, והתאמת קו ישר המתאר את הקשר בין המשתנים.
המודל של גולטון הורחב על ידי אדני יול וקרל פירסון[6][7], שהניחו במפורש כי למשתנה המסביר ולמשתנה המוסבר יש התפלגות משותפת דו נורמלית. רונלד פישר הראה ב-1922 וב-1925 כי ניתן להחליף את ההנחה הזו בהנחה יותר חלשה, לפיה ההתפלגות המותנה של המשתנה המוסבר בהינתן המשתנה המסביר היא נורמלית, אך ההתפלגות המשותפת של שני המשתנים אינה חייבת להיות דו נורמלית[8][9]. במובן זה, המודל של פישר דומה לפורמולציה של גאוס מ-1821. פישר הראה גם כיצד ניתן להכליל את מודל הריבועים הפחותים למודלים של ניתוח שונות[10] בספרו מ-1925.
במשך השנים פותחו מודלים נוספים המרחיבים את המודלים שפותחו בסוף המאה ה-19 ובתחילת המאה ה-20. כך למשל הוחלפה ההנחה כי למשתנה המוסבר יש התפלגות מותנה נורמלית בהנחות אחרות. כך למשל, כאשר מניחים כי ההתפלגות היא מולטינומית מתקבלים מודלים כגון הרגרסיה הלוגיסטית ורגרסיית הפרוביט, וכאשר המשתנה המוסבר נמדד בסולם סדר מתקבל מודל של רגרסיה אורדינלית. קיימים מודלים גם למקרים אחרים בהן הנחות היסוד של הרגרסיה הקלאסית (אחת או יותר) אינן מתקיימות.
יהיו המשתנה המוסבר, המשתנים המסבירים, פרמטרים ממשיים בלתי ידועים, פונקציה כלשהי.
כן מסמנים ב- את טעות המדידה של המשתנה המוסבר , ומניחים כי זהו משתנה מקרי בעל תוחלת 0.
מודל הרגרסיה הוא . ניסוח שקול למודל הוא .
כדי לבצע ניתוח רגרסיה יש לציין במפורש מהי הפונקציה . לעיתים ניתן לקבוע מהי פונקציה זו על סמך ידע קיים (כגון מודל פיזיקלי או ביולוגי). כאשר אין מידע כזה על יש צורך להניח הנחה כלשהי לגבי הפונקציה. במקרים רבים נהוג להשתמש בפונקציה ליניארית, לפחות בניתוח הראשוני.
כדי לאמוד את ערכי הפרמטרים יש צורך בנתונים, שהם בדרך כלל תצפיות הנדגמות מתוך אוכלוסייה.
נסמן ב- את מספר התצפיות.
התצפיות של המשתנה המוסבר הן לכן התצפיות של המשתנה המסביר הראשון הן וכן הלאה. ניתן לכתוב את כל נתונים המשתנים המסבירים במטריצה שעמודותיה הן .
שימו לב לכך שבעוד שאותיות לטיניות גדולות מסמנות משתנים מקריים, אותיות לטיניות גדולות ומודגשות מסמנות נתונים.
במונחים הנתונים ניתן לכן לנסח את המודל באופן הבא:
לכל .
בניסוח זה מודל הרגרסיה מיתרגם ל- משוואות עם נעלמים.
הגודל מכונה בשם מספר דרגות החופש של המודל.
בבסיס מודל הרגרסיה עומדות ההנחות הבאות:
אם כל ההנחות האלה מתקיימות, אמדני הנראות המקסימלית ל- יהיו חסרי הטיה, עקיבים ויעילים סטטיסטית (מבין כל האמדים חסרי ההטיה ל-).
ההנחות האלה בדרך כלל אינן מתקיימות במציאות. לכן, בעת יישום/אמידה של מודל רגרסיה יש לבדוק עד כמה הנתונים משקפים את ההנחות. סטייה גדולה מדי מן ההנחות מעמידה בסימן שאלה את התכונות הסטטיסטיות של האמדים.
במודל זה מניחים כי הפונקציה היא פונקציה ליניארית בפרמטרים , וכי לשגיאה יש התפלגות נורמלית עם תוחלת 0 ושונות חיובית . כן מניחים כי המשתנים המסבירים הם משתנים כמותיים (כלומר סולם המדידה שלהם הוא סולם רווח או סולם מנה) ורציפים.
במונחי הנתונים המודל הוא או .
בפרט, מודל רגרסיה המתאר קשר ליניארי (כלומר קשר המבוטא באופן גרפי על ידי קו ישר) בין שני משתנים הוא . כאן מניחים כי לכל .
דוגמה נוספת למודל רגרסיה ליניארית קלאסי מובאת מתחום הפיזיקה: כאשר מטילים חפץ קטן (כדור למשל) אנכית כלפי מעלה, ובהנחה שהגובה ממנו נזרק הכדור הוא 0, אזי גובה הכדור , לאחר שעבר זמן הוא כאשר היא המהירות ההתחלתית בה נזרק הכדור ו- היא תאוצת הכובד.
אם יש בידינו נתונים על הגבהים שבהם היה הכדור בנקודות הזמן , נוכל לכתוב את מודל הרגרסיה , ואז נוכל לאמוד את המהירות ההתחלתית של הכדור ואת ערכה של תאוצת הכובד מתוך הנתונים.
אף על פי שבמודל מופיע הערך זהו בכל זאת מודל רגרסיה ליניארית, מכיוון שכאמור הפונקציה היא פונקציה ליניארית של הפרמטרים ו-.
אמידת הפרמטרים של מודל הרגרסיה הליניארית הקלאסי מתבצעת על ידי מינימיזציה של סכום ריבועי השגיאות (ומכאן השם "שיטת הריבועים הפחותים"). נסמן ב- את האמדים ל-. שגיאת האמידה היא לכן . מכאן מקבלים כי סכום ריבועי שגיאות האמידה הוא ולכן .
בפועל אין צורך בביצוע תהליך של חישוב המינימום על ידי גזירה, מכיוון שגאוס ולז'נדר הראו כי .
על פי משפט גאוס-מרקוב, הוא האמד הליניארי חסר ההטיה הטוב ביותר עבור במובן ששונותו של היא מינימלית. עם זאת ייתכנו אמדים ליניאריים ל- ששונותם נמוכה מהשונות של (כגון אמד ג'יימס-שטיין), אך אלה אינם אמדים חסרי הטיה.
בנוסף לאמידת יש צורך לאמוד את השונות של השגיאות . על פי משפט גאוס מרקוב הוא אמד חסר הטיה עבור .
במודל הליניארי הכללי חלק מהמשתנים המסבירים (או אפילו כולם) יכולים להיות משתנים איכותיים הנמדדים סולם מדידה שמי. המודל בו יש משתנה מסביר קטגורי יחיד מכונה בשם מודל ניתוח שונות, ומודל בו יש מספר משתנים מסבירים קטגוריים נקרא מודל ניתוח שונות רב כיווני. אם חלק מהמשתנים המסבירים הם משתנים קטגוריים וחלקם משתנים כמותיים המודל מכונה בשם ניתוח שונות משותפת. שמות אלה מקורם בהיסטוריה של פיתוח המודלים, אך הם גם משקפים את התכונות של האמדים לפרמטרים. אמידת הפרמטרים נעשית באותו האופן כמו ברגרסיה הליניארית הקלאסית.
מודלים ליניאריים מוכללים מניחים כי תהליך יצירת הנתונים של המשתנה המוסבר נובע מהתפלגות כלשהי ממשפחת ההתפלגויות המעריכיות (הכוללת, בין השאר, את ההתפלגות הנורמלית, ההתפלגות המולטינומית, התפלגות פואסון, התפלגות גמא והתפלגויות נוספות).
נסמן את התוחלת של על ידי , כלומר . ותהי פונקציה מונוטונית כלשהי. כן נסמן .
בסימונים אלה, המודל הליניארי המוכלל הוא
הפונקציה מכונה בשם פונקציית הקישור.
אמידת הפרמטרים מתבצעת בדרך כלל בשיטת הנראות המקסימלית, וחישוב האמדנים הוא נומרי.
להלן מספר דוגמאות למודלים ליניאריים מוכללים:
אם הפונקציה אינה פונקציה ליניארית של , הרי שמדובר ברגרסיה לא-ליניארית.
בתחום הביולוגיה, למשל, מקובל להשתמש ב-"מודל ארבעת הפרמטרים" המתאר תגובה למשתנה כלשהו , כגון מינון או זמן. המודל הוא: . אמידת הפרמטרים של מודל כזה עדיין מתבצעת על ידי מזעור ריבועי השגיאות.
שני מודלים מקובלים לניתוח נתוני הישרדות הם מודל רגרסיית ההשרדות הפרמטרית ומודל הסיכונים הפרופרציונליים המכונה גם בשם "רגרסיית קוקס" על שם סיר דויד קוקס.
בין המודלים הנוספים ניתן למנות את רגרסיית האחוזונים, רגרסיה קטגורית[11], רגרסיה אורדינלית והרגרסיה הבייסיאנית. גם האנליזה של ניתוח פני שטח מגמתיים או סטטיסטיים (Trend Surface Analysis) המתבסס על פולינום ממעלה נמוכה, יכול להיחשב כמודל של רגרסיה.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.