שם הכותב: תאריך: 07 מאי 2014

סטטיסטיקה 3- שיעור 10

 

-פרופורצית השונות המוסברת- r^2

-אומדן חסר הטיה לשונות הטעויות- msres

-מהו אומדן חסר הטיה לשונות של שעות עבודה מול מחשב?- s^2(y)

-אומדן חסר הטיה לשונות של שעות עבודה מול המחשב כאשר גיל נמצא במשוואה- כשאומרים השונות של Y כשהגיל במשוואה- השאלה שנשאלת היא בעצם מה נשאר לנו שלא הצלחנו להסביר?

באמצעות מבחן F, אנחנו בוחנים אם בכלל קיים מודל כאשר ההשערות הם:

H0: ^2ρ=0—–> β=0

H1: ^2ρ≠0—–>β≠0

 

הבדיקה של ה-t- היא בדיקה של ההשערות:

H0: β=0

H1: β≠0

לכאורה הוא מיותר כאשר יש משתנה בלתי תלוי אחד- כיוון שיש רק ביתא 1. אם במבחן F, ההבדל הוא מובהק, אזי בהכרח מבחן T ייצא מובהק. המסקנה חייבת להיות אותה מסקנה. על פי הקשר בין ההתפלגויות- ניתן לראות שיש מעבר בין ההתפלגויות בדרגת חופש 1. במשתנה בלתי תלוי 1- אם המודל מובהק, אזי המשתנה חייב להיות זה שנותן את המובהקות.

T(a/2)[n-2])^2=F(a)[1,n-2])

רגרסיה מרובה\רבת משתנים

ברגרסיה מרובה המטרה היא לנבא את ערכו של המשתנה התלוי על ידי הקשר הקווי עם סדרה של משתנים ב"ת, כך שסכום ריבועי הסטיות יהיה מינימלי. גם כאן אנחנו משתמשים בעיקרון הריבועים הפחותים- זהו העיקרון המהותי במודל וגם כאן הוא מלווה אותנו. נוכל למצוא דמיון גדול בין רגרסיה זו לרגרסיה שנלמדה בשיעורים הקודמים.

רגרסיה מרובהרגרסיה חד משתניתקו תוחלותMyi=a+β1xji+β2xji+ β3xji….. βkxjiMyi=a+ βxiקו במדגםYyi=a+β1xj1+β2xj2+ β3xj3….. βkxjkYyi=a+ βxiערך אמיתי באוכלוסייהXi=Myi+εiXi=Myi+εiערך אמיתי במדגםYi=Yi+eiYi=Yi+eik- מס' המשתנים הבלתי תלויים.
הערכים האמיתיים במשתנה בלתי תלוי 1 ובכמה משתנים ישארו אותו דבר. הסיבה היא שאחנו בעצם מנבאים ערך מסויים, כאשר הטעות המשוקללת תשאר טעות אחת- פעם אחת היא תשתכלל על ידי משתנה ב"ת אחד, ובפעם השנייה תשתכלל על ידי כמה משתנים ב"ת.
את קו הרגרסיה עם משתנים מרובים לא ניתן לשרטט.

הנחות המודל

  1. דגימה מקרית וטעויות בלתי תלויות זו בזו.

    עבור כל cov(εi,εj)=0 i≠j

  2. εi~N(0,σ^2e) עבור כל קומבינציה ליניארית של X.

כשיש קומבינציה ליניארית בעצם מתכוונים לאנשים שיש להם אותו ערך בX 1 בx2 וכו'…

באופן עקרוני במדגם דבר כזה לא סביר שיקרה, אך אם נתייחס לאוכלוסייה- נקבל זאת. על ידי אותו שילוב של X, נקבל את אותו הניבוי במודל. הכוונה היא שיש קבוצת אנשים שיש להם אותו שילוב ערכים- ולכן בהנחות אנחנו מניחים שזה מתקיים עבור כל קומבינציה. השילוב הנ"ל תתן לנו תוחלת 0 בטעויות והתפלגות נורמלית. בסופו של יום, אחנו משתמשים בעיקרון הריבועים הפחותים, אך מבחינה רעיונית כשמדברים על האוכלוסייה- מדובר ברעיון יותר מורכב של השילובים המסוימים.

  1. המתאם בין המשתנים הבלתי תלויים אינו 1.

הרעיון מאחורי הנחה זו היא שלכל אחד מהמשתנים יש תרומה משלו לניבוי. נניח שאנחנו רוצים לנבא מעורבות בתאונות דרכים-כאשר המשתנה הבלתי תלוי יהיה גיל (מבוגרים יותר מחושבים, צעירים פחות לדוגמה). משתנה נוסף שנכניס למשוואה יהיה לדוגמה וותק על הכביש- כמה זמן יש לאותו אדם רישיון. לרוב האנשים יש רישיון מגיל 16-17, ולכן בעצם המשתנה השני יהיה בערך טרנספורמציה ליניארית של המשתנה הראשון. המתאם ביניהם יהיה גבוה מאד בגלל הסיבה הזו. המטרה היא למצוא משתנים ב"ת שהקשר שלהם עם המשתנה התלוי הוא גבוה ככל האפשר, ובינם לבין עצמם נמוך ככל האפשר. המטרה היא שיהיה לנו כמה שפחות משתנים שיסבירו כמה שיותר, לכן להכניס משתנה ב"ת בעל מתאם חזק עם משתנה ב"ת אחר לא אפקטיבי לנו.

התופעה של קשרים ליניאריים בין משתנים בלתי תלויים נקראת קו-ליניאריות. המטרה שלנו היא לשמור על תופעה זו בממדים נמוכים.

  • כל החישובים ברגרסיה מרובה יהיו עד שני משתנים ב"ת- מעבר לכך נשתמש בפלטים.

רגרסיה מרובהרגרסיה חד משתנית
שונות הטעויות– msresמתאםR^2r^2
פרופורציית השונות המוסברת של Y על ידי הקשר הקווי עם הX- ריבוע המתאם המרובה- R^2.
המתאם הפשוט- קשר סימטרי בין X וY- לשני הצדדים (בין -1 ל1)
מתאם מרובה- המתאם הקווי של Y עם הקומבינציה הליניארית של האיקסים- אבל לא להפך. אין סימטריה. לסימן אין משמעות- מ0-1 ללא מינוס (-). כל X יכול ליצור קשר חיובי או שלילי. מציין רק את עוצמת הקשר הליניארי בין המשתנה התלוי לקומבינציה הליניארית של המשתנים הבלתי תלויים.

חישוב המתאם המרובה
– היחס ברגרסיה חד משתנית נשמר גם בריבוי משתנים.

  1. R^2=(r(yi,yi͞))^2- צריך לזכור שאין משמעות לסימן ולעלות בריבוע. בעצם מתוך שני משתנים ב"ת נוצר משתנה שהוא ניבוי אחד כיוון שיש טרנספורמציה ליניארית של המשתנים. כלומר המתאם המרובה שווה למתאם הפשוט שבין Y לY pred.

ניתן לחשב את אחוז השונות המוסברת גם באמצעות מתאמי פירסון בין המשתנים.

נציג נוסחת חישוב רק במצב בו יש 2 משתנים בלתי תלויים

ry1- המתאם בין Yל-X1

ry2- המתאם בין Yל-X2

r12- המתאם בין X1ל-X2

כאשר r12 שווה ל-0, בעצם מדובר במצב אידיאלי מבחינתנו- כל אחד יסביר את הנתח שלו ואין קשר בין המשתנים. הנוסחה תהייה:


כאשר המתאם בין המשתנים הב"ת הוא 0, ריבוע המתאם המרובה שווה לסכום ריבוע המתאמים הפשוטים של Y עם כל אחד מX בנפרד.

אם אומרים שאין קשר בין המשתנים הבלתי תלויים, באופן הנ"ל ניתן לחשב את המתאם המרובה של יותר מ2 משתנים ב"ת, וזאת ע"י חיבור המתאמים של כל Y עם כל אחד מהX.

כאשר r12 גדול מ0 בנוסחא אנחנו בעצם מורידים את החלק המשותף, את המתאם המשותף כאמור בין המשתנים הב"ת. ככל שהקשרים והחפיפה בין המשתנים הב"ת גדולה יותר, זה פחות טוב לחוקרים.

ישנו מצב שהמכפלה בנוסחה תהיינה שלילית- מקרה נדיר כיוון שבד"כ יהיו 2 שליליים שיצרו כפל חיובי, אך הוא ייתכן-

חשוב לזכור שאם תוצאת הכפל חיובי, המתאם המרובה יהיה גדול יותר מסכום המתאמים. כאשר המתאם בין X1 לx2 שלילי (אבל Y יוצר קשר חיובי עם X1 וx2), נקבל מצב בו ריבוע המתאם המרובה יהיה גדול יותר מסכום ריבועי המתאמים הפשוטים.

ראשית, הקשר בין המשתנים הבלתי תלויים משפיע על הפרופורצייה המוסברת כפי שראינו עד כה. יש משמעות רבה למתאם בין איקס 1 לאיקס 2. שנית, המתאם בן הב"ת משפיע על יציבות המשוואה.

חישוב מקדמי הרגרסיה החלקיים ברגרסיה מרובה


(עבור 2 משתנים ב"ת)



אם 0=r12 אז מקדם הרגרסיה החלקי ( ) במשוואה הרב משתנית שווה למקדם הרגרסיה של אותו משתנה במשוואה חד-משתנית.

ניתן לראות שהמתאמים הב"ת נכנסים לתוך חישובי השיפוע. אם המתאם הוא -0 בעצם חוזרים חזרה לנוסחה של משתנה בלתי תלוי 1.

דוגמה: ידוע שהמשוואה לניבוי הישגים על ידי ציון פסיכומטרי הינה:


כמו כן ידוע שהמשוואה לניבוי הישגים על ידי גיל הינה:


בהנחה שאין קשר בין איקס 1 ליקס 2, חשב את משוואת הרגרסיה לניבוי הישגים באמצעות 2 המשתנים ביחד:


על מנת לבחון מצב של קו-ליניאריות- בוחנים את ביתא כובע כאשר יש משתנה 1 ו2, ובודקים האם המשוואה נשארה יציבה או אם חלו בו שינוים קיצוניים. בעצם זה המושג שמדבר על יציבות המשוואה.

שיפועים ברגרסיה מרובה נקראים מקדמים חלקיים – partial regression coefficints-

נבחן את משמעות השיפוע 2 בדוגמה- שינוי ביחידה אחת של פסיכומטרי גורם ל2 יחידות שינוי באומדן של הישגים כאשר כל שאר המשתנים במשוואה מוחזקים קבוע. (חשוב לציין זאת בשאלות במבחן- שכל שאר המשתנים קבועים!).

מקדמי המשוואה המתוקננת

הנוסחה המתוקננת היא דרך לבחון מי מהביתות בערך מוחלט תהיה יותר גדולה.

כשעוברים מציוני גלם לתקן, התוחלת 0 והשונות 1.

לכן- הקבוע יהיה 0- בדיוק כמו בחד משתני, הממוצעים יאפסו אותו (אלפא a)




באמצעות המשוואה בציוני תקן ניתן להשוות בין המשתנים הב"ת בתרומה היחסית שלהם לניבוי. המשתנה עם המקדם הגדול ביותר בערכו המוחלט הוא זה בעל המשקל הרב ביותר לניבוי.

אם הביתות המתוקננות ישארו זהות לציוני הגלם, אזי הקשר בין המתאמים הב"ת חלש או לא קיים כלל. ע"י השוואה בין השיפועים, נבחן מי מהם בעוצמה תורם יותר לניבוי.

משמעות המקדם החלקי המתוקנן- שינוי בסטיית תקן אחת בx1, גורם לביתא כובע 1 (המתוקננת) סטיות תקן שינוי באומדן של Y כאשר כל שאר המשתנים במשוואה מוחזקים קבוע.
רק לאחר התקנון ניתן לדעת מי תורם יותר לניבוי.

הסקה לאוכלוסייה

מבחן F שבוחן את כל המודל- האם המשוואה מובהקת? קודם כל נרצה לדעת האם המודל כולו מובהק, ואז נבחן חלק חלק. המבחןלא לוקח בחשבון את הקשרים בין הב"ת, כל פעם יש הסתכלות של Y אם משתנה אחר.

השערות

(משמעות- לפחות אחד מהב"ת קשור ל-Y)

הנחות:

  1. דגימה מקרית של תצפיות בלתי תלויות
  2. עבור כל קומבינציה קבועה של ערכי X-ים
  3. אין מתאם מלא בין המשתנים הבלתי-תלויים.

טבלת מקור השונות

בדיקת מובהקות מקדמי הרגרסיה החלקיים (השיפועים)


השערות



 

 

 

 

 

הנחות: 1, 2, 3 של מודל רגרסיה רב משתנית

 

סטטיסטי המבחן:

 

 

 

 

 


דוחים את השערת האפס אם :

 

 

כאשר יש שני משתנים בלתי תלויים אז נוסחת טעות התקן של מקדם הרגרסיה החלקי היא:


 

 

 

מהנוסחאות עולה כי טעות התקן של מקדמי הרגרסיה החלקיים תלויה ב: מידת הקשר בין הב"ת וגם בטווח ערכי X.

*אם יש יותר מ2 ב"ת- נשתמש בפלט.

לצילום של ד"ר גילה קינן

 

לצילום של מר תמיר פראוי

 



− שתיים = 1

תואר ראשון
תואר שני
מרצים