שם הכותב: תאריך: 14 מאי 2014

סטטיסטיקה 3- שיעור 11


 

 

3 דברים משפיעים על טעות התקן:

  1. Msres- ככל ששונות הטעויות תהייה קטנה יותר, כלומר המודל מסביר טוב יותר, טעות התקן תהייה קטנה יותר.
  2. SSX- קיצוץ תחום יגרום להקטנת הssx (לרוב) ובעקבותיו תגדל טעות התקן.
  3. המתאם בין המשתנים הבלתי תלויים לבין עצמם- ככל שהקשר בין המשתנים הב"ת לבין עצמם גדול יותר, טעות התקן תגדל (פחות טוב לנו).

 

ההבדל בין טעות תקן ברגרסיה חד משתנית לדו משתנית יהיה הmsres. בעצם כאשר יש שני משתנים ב"ת, החלק הלא מוסבר של המשתנה התלוי יהיה קטן יותר.

 

אם אין קשר בין המשתנים הב"ת, ודחינו H0 ברגרסיה חד משתנית, בוודאות נדחה ברגרסיה דו משתנית, הסיבה לכך היא שהmsres יהיה קטן יותר. אם יש קשר כלשהו בין המשתנים, לא ניתן להסיק לוגית ללא חישוב מה תהייה התוצאה.

 

רגרסיה דו משתנית

דוגמה 1 : ניבוי השכר הנוכחי באמצעות רמת ההשכלה והוותק במקום העבודה

 

 


 

המינימום והמקסימום חשובים לנו על מנת לדעת עבור אלו ערכים נוכל לנבא על בסיס הב"ת.


 

מציג את המתאמים בין המשתנה הבלתי התלויים לתלוי וביניהם. כמו כן, הצגה האם המתאמים מובהקים על ידי ***.


 

טבלה שיש בה אינפורמציה לגבי השיטה שבה המשתנים הוכנסו למשוואה. מדובר בפרוצדורה, נחזור לכך בסוף.

משמעות הכותרת היא- המשתנים שהוכנסו והוצאו החוצה בהליך של השיטה.

כשמסתכלים על שמות המשתנים שמופיעים ורשום enter, הכוונה היא שהמשתנים הוכנסו יחד באותו השלב.


 

מדדים שנותנים סיכום של המודל המוסבר ושאינו מוסבר. הנתונים בטבלה:

 

  1. R, המתאם המרובה לפני העלאה בריבוע. Ry12.

    בעוד במתאם הפשוט הסימן חשוב לחישוב, ברגרסיה רב משתנית המתאם יהיה תמיד חיובי. מתעלמים מהסימן ומתייחסים רק לחוזק המתאם.

  2. R SQUARE, מדובר בעצם בהעלאה בריבוע של הR.
  3. ADJUSTED R SQUARE- בקיצור נרשום ADJ R^2- בהוספת משתנים ב"ת למשוואת הרגרסיה, ריבוע המתאם המרובה יכול לגדול או לא להשתנות. על מנת לתת ביטוי לעובדה שלא תמיד כדאי לנו להכניס משתנה למשוואת הרגרסיה אנו מחשבים מדד המכונה ADJUSTED R SQUARE, אשר יכול לעלות או לרדת בהוספת משתנה.

    תמיד ניתן לבצע מבחן מובהקות על מנת להחליט לגבי משתנה נוסף. המדד הנ"ל לוקח בחשבון כמה מוסבר ובאמצעות כמה משתנים, הוא לוקח בחשבון את הטעויות שמכניס כל משתנה, ובוחן האם כדאי להכניס חלק מוסבר נוסף. המדד נותן אינדיקציה שעל ידה ניתן להשוות כמה סטים של משתנים ולהחליט על פי אילו מהסטים יותר כדאיים ללא בדיקת מובהקות. באמצעות המדד נחליט האם כדי או לא כדאי להוסיף משתנה מסוים. מדובר במשתנה שאינו מחליף בדיקת מובהקות, אלא בדיקה שמבצעים לפני כן.

    מדובר במדד שבאמצעותו ניתן להחליט האם במדגם תוספת של משתנה\משתנים הייתה כדאית.

  4. Std.error of the estimate- מדובר בעצם בשורש של msres- אם נעלה בריבוע נקבל את msres.

 

על מנת לבחון את המתאם בין הב"ת, אם הוא לא נתון, ניתן לבדוק האם המתאם המרובה שווה לסכום ריבועי המתאמים הפשוטים, זה מרמז על כך שהמתאם בין הב"ת זניח. את הסיבה לכך ניתן לראות בנוסחה של חישוב המתאם המרובה:


בעצם שr12 יהיה מאד קרוב ל-0. במקרה שהוא קרוב ל-0 אין תופעה של קו-ליניאריות, כלומר אין חפיפה גדולה בין המתאמים הב"ת.

 

 


השערות:

H0: β1=β2=0

H1: אחרת

 

החלק הראשון בטבלה- regression החלק המוסבר.

החלק השני בטבלה- residual החלק שאינו מוסבר.

העמודה הראשונה היא בעצם הSS (sum of squares).

 

2.33E+0.8=2.33*10^8

 

 


מקדמים חלקיים.

העמודה השמאלית של B מתייחסת לנתונים בציוני גלם. Constant זה הקבוע והמשתנים הב"ת נמצאים למטה כאשר הנתונים מתייחסים לשיפועים.

העמודה הבאה אחריה היא הטעויות תקן- בעצם:


הטעות תקן של אלפא לא נלמדה, יש לדעת שאת t מחשבים על ידי אלפא פחות 0 לחלק הטעות תקן הזו (כלומר שחזור T). לא למדנו לחשב את הטעות תקן עצמה.

העמודה של beta מתייחסת לנתונים בציוני תקן.

אם המקדם המתוקנן של כל אחד מהמשתנים קרוב מאד למתאם הפשוט, בעצם אין קשר בין המשתנים הב"ת או שהוא קשר זניח. את הסיבה ניתן לראות בנוסחה לחישוב ציון מתוקנן, שכן אם המתאם בין הב"ת קרוב ל-0 נישאר עם הr בלבד.

ברגרסיה חד משתנית- המתאם הפשוט שווה לr.

כך נוכל לבחון קו-ליניאריות.

דבר נוסף שניתן לבדוק אי את יציבות המקדמים- אם הם נותרים בערך אותו דבר- לא מתקיים קו-ליניאריות. לדוגמה: המקדם של השכלה במשוואה של 2 הב"ת הוא 274.676 בעוד כאשר הוא במשוואה לבד הוא 277.469- דבר המצביע על כך שהמתאם בין הב"ת ישאף ל0 כיוון שכמעט אין שינוי.

איתור תצפיות חריגות ודיאגרמה לבדיקת ההנחות

 


 

על פי הפלט נבחן את הנחות המודל. נבחן על פי התוצאות החריגות. ניתן לראות שיש 6 מקרים חריגים מתוך 122, פחות מ5%. אך ניתן לראות שיש סטייה לכיוון החיובי- כלומר אין איזון. נצפה לזנב ימני.

 

Charts

 

 


נבחן על פי הדיאגרמה האם ההנחה שהטעויות מתפלגות נורמלי אם תוחלת 0 ושונות סיגמה בריבוע מתקיימת לכל קומבינציה קבוע של X. בודקים כמו בחד משתני- כאן מאחורי הPRED יש קומבינציה של X במקום X אחד.

אזי נבחן על פי 3 המבדקים שעשינו בחד משתני.

הרצה של ניתוחי רגרסיה פשוטה לכל אחד מהב"ת בנפרד

 

  1. ניבוי השכר הנוכחי באמצעות רמת ההשכלה

 

Regression

 


יש כאן רגרסיה חד משתנית עם מתאם פשוט של משתנה ב"ת 1.

אם נשווה בין המתאמים נראה כי הוא יותר נמוך מהמתאם המרובה עם 2 המשתנים הב"ת. בעצם עובדה שלרוב מופיעה.

יש לשים לב ב ADJUSTED R SQUAR- יש לבחון את מדד זה בכל הקומבינציות הנתונות לנו- לדוגמה משתנה בלתי תלוי 1 עם Y, משתנה בלתי תלוי 2 עם Y, או שניהם עם Y- נשווה בין המדד הנ"ל וניקח את המדד שהוא הכי גבוה. הוא בעצם זה שכאמור מסביר הכי הרבה את הY.


 

 

 

  1. ניבוי השכר הנוכחי באמצעות הוותק במקום העבודה

 

Regression

 


 


 

דוגמה 2 : ניבוי השכר הנוכחי באמצעות ציוני ה-BA, וציוני הבגרות

 


 

 


הטבלה מראה כי כל משתנה ב"ת יוצר קשר מובהק עם התלוי, אם לא גבוהים דיו. בנוסף לכך, המתאם בין הב"ת עצמם חזק מאד- מצביע על קו-ליניאריות.


 


 

המתאם המרובה שווה ל0.065.

נבחן קו-ליניאריות על פי השוואה לסכום ריבועי המתאמים עם התלוי:

0.242^2+0.22^2=0.10

 

ניתן לראות כי אין קרבה בין המתאם המרובה לסכום, כלומר יש הצבעה על מתאם גבוה בין הב"ת- כלומר מתקיים קו-לינאריות. במקרה הנ"ל עדיף לשים את X1 לבד, אין צורך לקחת את שניהם בגלל המתאם הגבוה. נראה זאת על פי ה ADJUSTED R SQUAREבהמשך.


הSIG קטן מ5% ולכן המשוואה מובהקת.

נצפה שבטבלה הבאה לפחות אחד מהב"ת יהיה מובהק.


 

ניתן לראות שהמשתנים, למרות שהמשוואה מובהקת, שנבדוק כל אחד בנפרד- אף אחד מהם לא מובהק. הסיבה היא שיש ביניהם קשר חזק. אנחנו בעצם בוחנים האם מקדם אחד מובהק בנוכחות האחר. בגלל שהמתאם חזק, בעצם אף אחד מהם לא מצליח להוסיף הסבר על האחר- אף אחד מהם לא מראה מובהקות בנוכחות האחר.

 

זוהי תופעה חריגה שלא מתקיימת בד"כ- מצב שבו המשוואה במבחן F יהיה מובהק, בעוד המקדמים לא יהיו מובהקים במבחן T. ההסבר הוא רק הקשר החזק בין הב"ת.

הביתות המתוקנות שונות מהותית מהמתאמים הפשוטים של Y עם כל אחד מהX- מצביע גם על קשר חזק בין הב"ת.הרצה של ניתוחי רגרסיה פשוטה לכל אחד מהב"ת בנפרד

 

1. ניבוי השכר הנוכחי באמצעות ציוני הבגרות

 

Regression

 


ניתן לבחון את יציבות המשוואה על ידי השוואת המקדמים הפשוטים והחלקיים, גם כאן ניתן לראות שיש תופעה של קו-ליניאריות.

 

X2 X1 X12
0.048 0.059 0.065 R^2
0.4 0.051 0.49 ADJ

 

על פי ADJ נעדיף משוואה רק עם משתנה ב"ת X1.

 


 

2. ניבוי השכר הנוכחי באמצעות ציוני הB.A-

 

 

Regression


 


 

 

שיטות להכנסת נתונים למשוואת רגרסיה

 

יש 3 שיטות עיקריות:

  1. הכנסה של כל המשתנים כמקשה אחת- שיטת הENTER- רואים את כל המשתנים יחד בתכנה תחת ENTER אחד- שלב אחד.
  2. שיטה היררכית– החוקר קובע את סדר הכנסת המשתנים למשוואה. לרוב מה שמשפיע על החוקר בהחלטתו מה קודם למה הוא סדר השפעתם על התלוי, ניתן להכניס מספר משתנים באותו השלב. בשיטה הזו נקבל את הסדר.
  3. רגרסיה בצעדים- stepwise regression- השיטה הזו מטרתה להגיע לניבוי הטוב ביותר- כלומר למתאם המרובה הטוב ביותר. המחשב מחשב את הנתונים לבד- כשבכל שלב נכנס משתנה ב"ת אחד בלבד.

    בשלב הראשון– ייכנס המשתנה שיש לו את המתאם הפשוט הגבוה ביותר עם המשתנה התלוי ובתנאי שהוא מובהק.

    בשלב בשני
    המחשב בודק למי מבין שאר המשתנים יש את המתאם החלקי הגבוה ביותר, ובתנאי שהוא מובהק.

לצילום של ד"ר גילה קינן

 

לצילום של מר תמיר פראוי

 



+ שמונה = 16

תואר ראשון
תואר שני
מרצים