שם הכותב: תאריך: 21 מאי 2014

סטטיסטיקה 3- שיעור 12

 

שיטות להכנסת נתונים למשוואת רגרסיה (המשך שיעור קודם…)

 

יש 3 שיטות עיקריות:

  1. הכנסה של כל המשתנים כמקשה אחת- שיטת הENTER- רואים את כל המשתנים יחד בתכנה תחת ENTER אחד- שלב אחד.
  2. שיטה היררכית– החוקר קובע את סדר הכנסת המשתנים למשוואה. לרוב מה שמשפיע על החוקר בהחלטתו מה קודם למה הוא סדר השפעתם על התלוי, ניתן להכניס מספר משתנים באותו השלב. בשיטה הזו נקבל את הסדר.
  3. רגרסיה בצעדים- stepwise regression- השיטה הזו מטרתה להגיע לניבוי הטוב ביותר- כלומר למתאם המרובה הטוב ביותר. המחשב מחשב את הנתונים לבד- כשבכל שלב נכנס משתנה ב"ת אחד בלבד.

    בשלב הראשון– ייכנס המשתנה שיש לו את המתאם הפשוט הגבוה ביותר עם המשתנה התלוי ובתנאי שהוא מובהק. המשתנה שמסביר הכי טוב את הב"ת.

    בשלב בשני
    המחשב בודק למי מבין שאר המשתנים יש את המתאם החלקי הגבוה ביותר, ובתנאי שהוא מובהק. הסיבה שבודקים את המתאם החלקי היא כיוון שכבר יש משתנה אחד שמסביר, והמשתנה הבא כבר תלוי בו. כלומר כמה המשתנה הבא מוסיף לניבוי בהינתן שהמשתנה הראשון כבר במשוואה.

     

    בכל שלב יצטרף משתנה אחד שלא המשתנה החלקי הגבוה ביותר ובתנאי שהוא מובהק.

     

    דרך נוספת לבחון איזה משתנה ייכנס- המשתנה שהתוספת שלו לניבוי התלוי היא הגדולה ביותר, ובתנאי שתוספת זו מובהקת. כשמדברים על מתאם חלקי- הערך יהיה בין -1 ל1- עוצמת הקשר. התוספת לניבוי יהיה במונחי r^2, בעצם פרופורציה- התוספת לפרופורציה המוסברת.

     

     

    חישוב תוספת במונחי r^2

     

    חישוב התוספת רלוונטי לשתי השיטות- שיטה היררכית ושיטת הצעדים.

    N=100

    R^2y1=0.1

    R^2y12=0.3

    R^2y123=0.4

    R^2y1234=0.6

    R^2y12345=0.7

     

     

    חשב את התוספת של X2 וx3 על X1.

     


    Part- קבוצת המשתנים שנמצאת במודל לפני התוספת

    All- קבוצת המשתנים שנמצאת במודל לאחר התוספת

 

R^2y123- R^2y1=0.4-0.1=0.3

 

 

מובהקות התוספת

 

השערות: לפי המשתנים החדשים שהוספנו!!!

למשל, כאשר X1,X2,X3 נמצאים במודל (ו4 ו5 הם תוספות).


 

*יש לציין על יד ההשערות אילו משתנים ב"ת כבר נמצאים בתוך המשוואה.

מדובר על אותו מבחן שלמדנו- אך כעת אנחנו בוחנים רק את התוספות.

 

הנחות: 1,2,3 של רגרסיה רב-משתנית

 

סטטיסטי המבחן:

 


 

בעצם מדובר באותה משוואה מוכרת, אך רק לחישוב התוספת. כאשר מספר דרגות החופש יהיו תוספת המשתנים הב"ת למשוואה.

 

דוחים את השערת האפס אם:

 


 

בהמשך לדוגמה:

 

F=[(0.4-0.1)/3-1]/[(1-0.4)/(100-3-1)]=24

 

דחייה: F>3.07

 

מסקנה– 24>3.07, התוספת של X2 וx3 לניבוי המשתנה התלוי, כאשר X1 במשוואה מובהקת, כלומר שונה מ-0 באוכלוסייה.

 

חישוב תרומה ייחודית במונחי R^2

 

מה מוסיף משתנה לניבוי של התלוי, שאף משתנה אחר לא יכול להוסיף. הכוונה ללא קשר לסדר הכנסת המשתנים.

 

כשמדברים על תוספת- בעצם שואלים כמה הוסיף משתנה אחד לאחר שמשתנה אחר במשוואה. כששואלים על תרומה ייחודית– הכוונה היא שלא משנה איזה משתנים כבר נמצאים במשוואה- בכל מקרה המשתנה הספציפי הזה יתרום את התרומה הספציפית הזו למשוואה.

 

כמה משתנה ב"ת היה מוסיף למשוואה לו הוא היה נכנס אחרון למשוואה?

 

נניח נחשב את התרומה הייחודית של X5 על פי הדוגמה שלנו:

 

R^2y12345- R^2y1234=0.7-0.6=0.1

 

*נבחן את מובהקות התרומה הייחודית על פי אותו מבחן שהסברנו למעלה.

 

 

השערות:

למשל, כאשר כל שאר המשתנים במשוואה


 

דחיית H0:

F>3.92

 

F=[(0.7-0.6)/(5-4])/[(1-0.7)/(100-5-1)]=31.33

 

מסקנה: 31.33>3.92 לכן ניתן לומר שהתרומה הייחודית של X5 לניבוי המשתנה התלוי מובהקת ברמת מובהקות 0.05, ולכן שונה מ-0 באוכלוסייה.

 

*ניתן לבחון את התרומה הייחודית על פי הביתות- כאן בחנו במונחי r^2. כאשר בודקים מובהקות של תרומה ייחודית, ניתן לעשות זאת באמצעות מבחן F שתואר לעיל, או באמצעות מבחן מובהקות המקדם החלקי (מבחן t).

 

רגרסיה רב משתנית

 

דוגמה 1: ניבוי היקף פעולות סניף הבנק ביצוא באמצעות 5 משתנים- היקף פעולות בבורסה, יבוא, חסכונות, עמלות והמחאות נוסעים (כל המשתנים באלפי ש"ח ליום). בניית המודל לפי מס' שיטות.

 

סטטיסטיקה תיאורית ומטריצת מתאמים בין כל המשתנים

 

מתוך שאלה רב משתנית – לפעמים נשאל על דו משתנית.


 


לבחון את המתאמים של הY עם כל אחד מהX בנפרד. ניתן לראות שיש 3 משתנים בינוניים אך מובהקים. נוסף לכך 2 שאינם מובהקים- 1 ו4. מכאן ניתן להסיק שאם הם אינם מובהקים לבד עם Y, אז הם לא יצליחו להיות מובהקים כמסביר שהוא תוספת למשוואה.

 

שיטת ENTER

שיטה שבה מכניסים הכל בבת אחת.

 

Regression


בשיטת האנטר יש שלב 1- וכך נזהה אותו. כאן ניתן לראות שתחת הMODEL יש שלב אחד. כשמופיעה המילה ENTER- יש לשים לב שהחוקר כפה על המחשב להכניס את כל המשתנים יחד למודל- אין יוצא מן הכלל. לסדר המשתנים הכתובים אין משמעות.

 

 


ניתן לראות שהנתונים מזכירים רגרסיה דו משתנית. אלו נתונים סטטיסטיים במדגם- המוסבר והלא מוסבר. כאשר המוסבר מכניס לתוכו את כלל המשתנים הב"ת.

 


כלל דחייה- sig<α, בכל רמת מובהקות נדחה H0.

במבחן- ייתכן שנצטרך לשחזר נתונים בטבלה.

 

 


 

 

באמצעות המקדמים בציוני גלם, נוכל לבנות את משוואת הרגרסיה.

על ידי הציוני תקן נוכל לבחון איזו ביתא הכי גדולה- וכך נדע מי מהם הכי משמעותי למשוואה.

 

על ידי הSIG נוכל לבחון מובהקות של התרומה הייחודית של כלל המשתנים הבלתי תלויים. ניתן לראות שx1 וX4 אינם מובהקים כפי שהסקנו בתחילה. אם הם לבד אינם מובהקים, הרי שכל שאר המשתנים הבלתי תלויים בתוך המשוואה, כביתא חלקית- כנראה שהם לא יהיו מובהקים גם כן (כשכל שאר המשתנים מוחזקים קבוע).

 

 

שיטת STEPWISE

בעצם אותו בסיס, עם אותן הבדיקות- אך נוספת בדיקה אחת שלא הכרנו.

 

Regression


על פי סדר המשתנים ניתן לראות איזה משתנה נכנס ראשון, שני וכד'… יש מצבים בשלב הנ"ל- שמשתנה בתוך המשוואה יוצא החוצה )מוצא על ידי המחשב). בעצם במתוד- ניתן לראות את הכלל שנתנו למחשב על פיו הוא מוציא ומכניס משתנים למשוואת הרגרסיה.

הקריטריון להכניס משתנה- הוא שהSIG קטן מ0.05. כלומר המשתנה ייכנס רק אם התוספת שלו מובהקת ברמת מובהקות 0.05. המחשב בוחן למי מהמשתנים המתאם הגבוה ביותר ומכניס אותו ראשון, לאחר מכן בוחן מי מהמשתנים התרומה החלקית הגבוהה ביותר ומובהקת בנוכחות המשתנה הראשון ומכניס אותו הלאה וכך הלאה.

 

המחשב יוציא החוצה משתנה משתנים שהם אינם מובהקים בנוכחות האחרים מעל 10%.

 

המחשב עושה בדיקה לא רק מה נכנס- אלא סורק האם כדאי להוציא משתנים החוצה. אלו משתנים שהפכו להיות לא מובהקים בנוכחות האחרים. זה בעצם קריטריון שפחות חמור- להכניס 5%, להוציא 10%.

 


 

בטבלה זו אנחנו מקבלים נתונים מוכרים וכן נוסף לכך, נתונים על השינוי שהתרחש. Changes statistics. בr square- ניתן לראות את ההפרשים של R בריבוע, לדוגמה:

0.213-0.156=0.056

ההפרש בין r^2 all לr^2 part- כמה שינוי יש בr^2.

 

F change- מדובר על המבחן של התוספת של משתנה הבלתי תלוי על המשתנים הקיימים במשוואה.


 

בעצם השלב הראשון הוא לכאורה רגרסיה חד משתנית עם משתנה בלתי תלוי 1, השלב השני הוא רגרסיה חד משתנית עם תוצאות של 2 משתנים ב"ת, וכן השלישי רגרסיה רב משתנית עם 3 משתנים ב"ת- כאשר הF מתייחס לכל אחד משלבים אלו.


ניתן לבחון קו-ליניאריון על פי השוואת הביתא המתוקננת בחד משתנית- לביתא המתוקננת של אותו המשתנה עם משתנים נוספים במשוואה- אם יש שינוי גדול- המתאם בין המשתנים כנראה גבוה ויש קו ליניאריות. אם השינוי לא מהותי- כנראה המתאם שואף ל-0. כאן לדוגמה ניתן לראות שיש שינוי מ0.395 ל-0.367- שינוי קטן מאד.


 

מראה את תוצרי החישוב של המחשב בכל שלב ושלב- על אילו שלא נכנסו עדיין למשוואה.

במודל הראשון נכנס רק X5 ולכן יהיו X1 עד X4.

 

בpartial- נראה את המתאם החלקי של המשתנה כאשר X5 במשוואה. כלומר המתאמים החלקיים של Y של כל אחד מהמשתנים שלא נכנסו כאשר משתנה 5 כבר נמצא במשוואה.

ניתן לראות שלX3 יש המתאן החלקי הגבוה ביותר ולכן הוא ייכנס שני. ניתן לראות שגם הT שלו הוא הגדול ביותר. לפי הSIGיהיה קשה להכריע- נסתכל על גודל הR או על הT.

 

  • במבחן יכולים לשאול אותנו מי הבא בתור שייכנס למשוואה.

 

Beta in- מה יהיה המקדם המתוקנן אם המשתנה הנ"ל ייכנס בשלב הבא למשוואה, לרוב הנתון הגבוה ביותר הוא זה שייכנס למשוואה- אך יש מקרים חריגים כמו זה שאנו רואים כאן. את ההחלטה נקבל על פי הpartial- המתאם המובהק הגדול ביותר.

 

המחשב הפסיק להכניס משתנים למשוואה כאשר הוא ראה שהמשתנים החלקיים הם לא מובהקים- ברמה 0.832 ו0.82.

 

Tolerance – אינדיקציה עד כמה הקשר בין המשתנים הבלתי תלויים חזק או לא. המדד נקרא tolerance- הקשר בין הב"ת- על הקו-לינאריות. זהו מדד בין 0-1- ככל שהוא מתקרב ל1 הקו-ליניאריות חלשה.

 

Tolerance= 1-r^2(x1,x2)שיטה היררכית

 

Regression


ניתן לזהות שאנחנו במודל היררכי על פי הENTER והשלבים- כלומר כפינו על המחשב להכניס את המשתנים בסדר שאנחנו החלטנו עליו. השיקולים עם שיקולים של תוכן של החוקר.

 


 

מכיוון שההחלטה של הכנסת המשתנים היא על החוקר, לא בהכרח התוספת תהייה מובהקת- כמו שניתן לראות בדוגמה הנוכחית.

 

בדוגמה הקודמת ראינו שמשתנה 3 מובהק בנוכחות 2 ו5, אך כאן כאשר הוא נכנס עם 1 ו4, המובהקות שלו אינה מספיקה. בעצם יש הפרעה של המשתנים הללו על משתנה 3.

 

X2,X3,X5 X1,X2,X3,X4,X5
0.255 0.256 R^2
0.235 0.221 ADJ R^2

 

ניתן לראות שהמודל עם פחות משתנים עדיף על זה עם יותר משתנים.


 

 


 


לטבלה הזו אין כ"כ משמעות כיוון שלא המחשב בוחן את סדר הכנסת המשתנים.

 

לצילום של ד"ר גילה קינן

 

לצילום של מר תמיר פראוי

 




− שמונה = 0

תואר ראשון
תואר שני
מרצים