השלמת נתונים חסרים (Replacing Missing Values): איך זה עובד?

בעיות של תשובות לא מלאות או נתונים חסרים

בתהליך דגימה מתקבלים, בדרך כלל, ערכים חסרים מתוך שאלות שהמרואיינים העדיפו לא לענות עליהן, או שדילגו עליהן באקראי. עבור חוקרים, שמשקיעים משאבים רבים באיסוף נתונים, נתון חסר משמעותו אובדן של שאלון בכללותו, אם הפריט החסר מהווה רכיב במדד מפתח במודל המחקר. נקודת המוצא של הצורך בהשלמת הנתונים היא הסיכון שייצוגיות הדגימה נחלשת. למשל, אם מתוך הנסיונות לראיון נתקבלו תשובות חלקיות, לא ברור אם הדגימה השיגה את מטרתה. קיימות שיטות מתקדמות, שמתגברות על בעיית הנתונים החסרים, כאשר אפשר לחלקן לשתי קבוצות עיקריות שמובילות בתחום: קבוצה אחת מבוססת מודל (Model-Based), והיא מאפשרת אמידה של מקדמי מודל המחקר גם ללא כל הנתונים, או בנוכחות ערכים חסרים, עבור כל התצפיות בעזרת מדד הנראות בתנאי מידע מלא (Full Information Maximum Likelihood). לשיטה זאת תומכים רבים, כי אינה מחייבת השלמת פיזית של הנתון החסר, אלא מתייחסת לחסר בעת בניית מטריצת השונות/קובריאנס. למרות זאת, בגלל המורכבות של אלגוריתם האמידה של שיטה זאת, ישנם מקרים בהם המודל לא מתכנס ולא ניתן לאמוד את מקדמי המודל, בדרך כלל כאשר המדגם עצמו קטן. מול השיטה הזאת, קיימת אפשרות להשלים נתונים חסרים בשיטה מבוססת נתונים (Data-Based Multiple Imputations). המצדדים בשיטה זאת טוענים ליתרון ביצירת מודל יציב ואמידת מקדמים לא מוטית (Unbiased). שיטה זאת מוסברת בהמשך. שתי השיטות מחייבת בדיקה ראשונית של תבנית הנתונים החסרים בעזרת מדדי טיב התאמה, שתפקידם להצביע על מבנה אקראי, לעומת מבנה לא אקראי. למשל, בעלי הכנסות גבוהות נוטים לא לדווח על הכנסתם כאשר נשאלים לגביה במהלך ראיון, גם אם הוא טלפוני או מדוור. זאת אומרת, שכאשר נטפל בנתונים חסרים אלה, נגלה שמפת הערכים החסרים אינה אקראית, אלא קיימים ריכוזים גבוהים יותר של ערכים חסרים בקרב תצפיות שאפשר לנבא להן שכר גבוה מאוד או נמוך מאוד. לכן, לא נוכל להסתמך על התפלגות המדגם כולו, אלא נזדקק לפילוח המדגם לבעלי רמות הכנסה שונות. אילו היינו משלימים נתוני הכנסה עבור כלל המדגם, היינו גורמים להטיה לכיוון ממוצע ההכנסות ומקטינים את משקל ההכנסות הקיצוניות. לכן, קיימת חשיבות מרכזית בהבנת תבניות אפשריות של נתונים חסרים לפני הבחירה בשיטת ההשלמה המועדפת. כאשר הבדיקה הראשונית מעלה כי אין קשר בין הנתונים החסרים לבין הנתונים הקיימים, גם ברמת התצפית וגם ברמת המשתנה, נניח כי מדובר בפיזור של הנתונים החסרים באקראיות מלאה (Missing Completely at Random). במילים אחרות, הנחת האקראיות המלאה מצביעה על כך שלא נמצא קשר שיטתי בין מגמת החסר בנתונים לבין ערכים קיימים או חסרים, כך שהסיכוי של נתון חסר על פני כל הנתונים שווה לכל פירטי המידע האפשריים. לעומת זאת, נתונים חסרים אקראית (Missing at Random), אך לא לגמרי כמוסבר לעיל, הוא מצב בו קיים קשר כלשהו בין הסיכוי לערך חסר למערך הנתונים, אך הנתונים החסרים עצמם מפוזרים אקראית. לבסוף, קיים מצב בו הנתונים החסרים אינם מפוזרים אקראית הן ברמת הנתונים החסרים והן ברמת הנתונים הקיימים (Missing not at Random), כמו המקרה של רמות ההכנסה. בדרך כלל, אפשר להסתפק במבנה אקראי של נתונים חסרים גם אם לא הצלחנו להראות שהאקראיות מלאה. דרישה זאת נכונה לכל בחירה בשיטת השלמת הנתונים מבין שתי השיטות שהוצגו.

צורות התיחסות לנתונים חסרים ללא השלמה 

בנקודה זאת חשוב לציין שמול השלמת הנתונים בשתי השיטות המובילות, קיימת האפשרות, שמקובלת עדיין, אך איכותה נמוכה הרבה יותר, להשמיט מקרים או תצפיות עם נתונים חסרים. אפשר להשמיט תצפית או מקרה שלפחות פריט אחד חסר בה (Listwise Deletion) ואפשר להשמיט תצפית או מקרה בהתאם למרכיבי המודל (Pairwise Deletion). בשתי שיטות ההשמטה, ההנחה היא שהערכים החסרים מפוזרים באקראיות מלאה. בפועל, אם הנחה זאת מוטעית, נקבל מקדמים מוטים. בשיטה השנייה, בעיה זאת חלשה יותר, אך המחקר מדווח על גודל מדגם שונה למודלים שונים. במקרים רבים, השונויות והממוצעים מחושבים על כלל המדגם ואילו המודל מתבסס על שונות וממוצע אחרים. בדרך כלל במצב כזה לא ניתן גם לאמוד את שגיאות התקן של המקדמים. מאידך גיסא, יתרונן של שיטות אלה בפשטותן, זמינותן, ונוחיות היישום שלהן. אין צורך להבין יותר מידי, רק לסמן באיזה שיטה נבחר ולהתעלם מהצורך בניתוח מקיף של מבנה החסר של הנתונים.  

שיטות השלמה של נתונים חסרים מבוססת-נתונים

מהי השיטה להשלמת נתונים על בסיס הנתונים? ראשית, הכוונה לתהליך שבו מוחלפים ערכים חסרים בערכים ממשיים בכל התאים החסרים. קיימות שתי שיטות ושתיהן מבוססות על מודל רגרסיה. השיטה האחת מחליפה ערך צפוי על בסיס פרדיקציה של מודל רגרסיה, ואילו השיטה השנייה גם היא מבוססת על מודל רגרסיה, אבל הבסיס להחלפה הוא סטוכסטי, סביב ממוצע קו הרגרסיה. אם השיטה הראשונה עדיין עשויה לצור התכנסות מסוימת לממוצע, ולהגדיל מלאכותית את שיעור השונות המוסברת על ידי המודל, הרי שהשיטה השנייה מייצרת ערכים אקראיים לחלוטין, המחליפים ערכים חסרים, כאשר מידת השפעתה על השונות זניחה לחלוטין. מחקרים מצביעים על כך שהשיטה השנייה מבין השיטות מבוססות הנתונים, מאפשרת אמידה של מקדמים בלתי מוטים. למרות הסיכון הנמוך בהטייה של המקדמים בהחלפת נתונים בשיטה השנייה, עדיין קיים סיכון של הטייה באמידה של שגיאות התקן של המקדמים, או הערכת חסר של שגיאת התקן.  המפתח להשלמה לא מוטית נמצא במספר החזרות שמבצעים להשלמת הנתונים (Multiple Imputations). עקרונית, ככל ששיעור הערכים החסרים עולה, כדאי יהיה לבצע חזרות רבות יותר של השלמה, כך שאקראיות הדגימה תישמר. חזרות להשלמת נתונים מכוונות ליצירת מספר בסיסי נתונים שבכל אחד מהם השלמה אקראית של הנתונים החסרים בעזרת אחת השיטות שבחרנו. לצורך העיבודים בוחרים אקראית סט נתונים מתוך כל החזרות שנערכו. אפשר לצרף גם את שיטת החלפת הנתונים החסרים בממוצע הפריט, שמתבסס על הערכים הנצפים, למשל בניתוח גורמים. גם כאן, הבעיה היא שבהחלפה של נתון חסר עם הערך הממוצע, אנחנו מצמצמים את שונות המשתנה ומשפיעים על שגיאת התקן של המקדם. גישה זאת נחשבת לגרועה מכולן ואינה נתמכת בכל הצדקה סטטיסטית.

ד"ר גבי ליברמן – דטה גרף, מחקר וייעוץ סטטיסטי

אין תגובות