בכריית מידע, סטטיסטיקה ולמידה חישובית, ניתוח אשכולות (באנגלית: Cluster Analysis) מתייחס למשימה של קיבוץ אובייקטים לקבוצות (אשכולות) כך שהאובייקטים הנמצאים באותה קבוצה דומים זה לזה יותר מאשר לאובייקטים השייכים לקבוצות אחרות.[1][2]
לניתוח אשכולות יש שימושים רבים במגוון תחומים. לדוגמה במחקר שיווקי, ניתוח אשכולות משמש לביצוע פילוח של הלקוחות לפי התנהגות צרכנים ותכונות דמוגרפיות. ביולוגים מקבצים מידע גנטי לאשכולות כדי לאתר תתי אוכלוסיות או זנים. בסוציולוגיה נעזרים בניתוח אשכולות כדי לחלק את החברה לתת-קבוצות על בסיס קשרים בין-אישיים.
הקיבוץ לאשכולות יכול להיות משני סוגים:
- קיבוץ קשה (באנגלית: Hard Clustering) – שבו כל אובייקט שייך לאשכול אחד בלבד.
- קיבוץ רך (באנגלית: Soft Clustering) – שבו כל אובייקט שייך למספר אשכולות בדרגות שייכות שונות.
במהלך השנים פותחו אלגוריתמים מסוגים שונים לניתוח אשכולות. להלן המודלים הטיפוסיים:
- מודל מבוסס קישוריות – בהתאם להגדרת מרחק בין האובייקטים, המודל מאתר אשכולות באופן היררכי.
- מודל מבוסס מרכז הכובד – שבו כל אשכול מיוצג על ידי מרכז הכובד של כל החברים שבו.
- מודל המבוסס על התפלגות סטטיסטית.
- מודל מבוסס צפיפות – שבו אשכול מוגדר כאזור צפוף שבו מתקבצים מספר גדול של אובייקטים.
- מודל המבוסס על תורת הגרפים שבו אשכול מיוצג על ידי תת-קבוצה של צמתים בגרף כך שכל שני צמתים בתת-קבוצה מחוברים באמצעות קשתות.
יש כמה שיטות של ניתוח אשכולות. למשל, bag of words, bottom-up, top-down ועוד.
- ניתוח אשכולות היררכי (agglomerative clustering) – קיבוץ היררכי, היא שיטה לחלוקה של רשימת איברים לקבוצות. השיטה מכונה "bottom-up" כי בהתחלה כל איבר מהווה קבוצה בפני עצמה (קבוצה בעלת איבר אחד) ובכל צעד של האלגוריתם מספר הקבוצות קטן באחד. כלומר, האלגוריתם בונה את הקבוצות ממצב שבו אין למעשה חלוקה לקבוצות למצב שבו נוצרות קבוצות ההולכות וגדלות. בכל שלב האלגוריתם מבצע צעד אחד פשוט - איחוד בין שתי קבוצות. בתחילת ריצת האלגוריתם כל איבר מהווה קבוצה בת איבר אחד. בהמשך, כאשר קבוצות מאוחדות זו עם זו, מספר הקבוצות קטן באחד ומספר האיברים בקבוצה החדשה הוא סכום מספר האיברים בשתי הקבוצות שאוחדו. האלגוריתמים השונים לקלסטרינג (clustering) היררכי נבדלים זה מזה באופן שהם מחליטים אילו קבוצות לאחד בכל צעד של האלגוריתם. האלגוריתמים נבדלים זה מזה באופן שבו הם מחשבים את המרחק בין כל זוג של קבוצות.
- ניתוח אשכולות חלוקתי (divisive clustering) – שיטה בה כל המידע מצוי בהתחלה באותו אשכול ואז עובר חלוקה עד הגעה למספר הקבוצות הרצוי, על כן מכונה "top-down".
Bailey, Ken (1994). "Numerical Taxonomy and Cluster Analysis". Typologies and Taxonomies. p. 34. ISBN 9780803952591.
Tryon, Robert C. (1939). Cluster Analysis: Correlation Profile and Orthometric (factor) Analysis for the Isolation of Unities in Mind and Personality. Edwards Brothers.