שם הכותב: תאריך: 26 מרץ 2014

סטטיסטיקה 3- שיעור 6

 

מאפייני קו הרגרסיה שנבנה על פי עיקרון הריבועים הפחותים

במדגם אנו יוצרים קו, שהאפיון שלו הוא שהסטיות ממנו הוא מינימאליות. כלומר, ריבועי הסטיות ממנו הן מינימאליות. שני הישרים שנוצרים נחתכים בנקודה (xbar,ybar), כלומר הממוצעים. הקו הנ"ל הוא אמנם במדגם, אך יש לבחון האם באמת הוא אומדן חסר הטיה לאוכלוסייה ועל כך נדבר בהמשך.

 

מאפייני קו הרגרסיה

  1. שני קווי הרגרסיה (ניבוי Y על ידי X וניסוי X על ידי Y) הנבנים על פי עקרון הריבועים הפחותים , נחתכים בנקודה הממוצעים.
  2. המרכיב החשוב בקו הוא השיפוע. אם השיפוע שווה ל-0, אזי אין ניבוי. כלומר אין מודל. הקו יהיה אופקי, ולכן לכל X ננבא אותו הפרמטר.

    כש שווה ל-0, הישר עובר דרך הראשית.

    כש שווה ל-0 אזי == ybar

  3. כשאנו בונים משוואת קו ישר, נקודת המוצא היא התצפיות שקיבלנו במדגם, כלומר: Xi וYi.

     

=Pred Yi Xi
88-87=1 87 88 70
-4 87 83 70
-3 87 84 70
-7.5 92.5 85 75
0.5 92.5 93 75
-3.5 92.5 89 75
-1.9 96.9 95 79
-17.9 96.9 79 79

נניח:

=Pred- נקרא ניבויים\אומדנים. בעצם מתקבל על ידי הצבת XI במשוואה.prediction))

– הסטיות, השאריות. איזה חלק נשאר לי בניבוי שאנו לא יכולים להסביר אותו? (residue)

 

התלות\המתאם שבין הניבויים לטעויות- הערך האמיתי הוא , כאשר ei הוא החלק שלא מוסבר בעוד הוא החלק המוסבר. המתאם בין שני אלו חייב להיות 0, כלומר: r(,ei)=0.

 

כשאנו שואלים מה הערך האמתי? אנחנו בעצם לוקחים את החלק המנובא ומוסיפים\מפחיתים את הטעות. כלומר את ההפרש שנותר מהתצפית לניבוי. אין שום דבר משותף ביניהם, אלו שני פרמטרים שלא יכולה להיות ביניהם חפיפה במהות שלהם. כלומר, אין דבר שקושר בין שני החלקים הללו.

 

כשנחנו עובדים לפי עיקרון הריבועים הפחותים, המתאם חייב להיות 0!!!

הדבר היחיד שנסיק אם קיבלנו מתאם שהוא לא -0, הוא שקיימת טעות חישוב.

החישוב של המתאם הוא בעצם בין קבוע, לבין משתנה, מתאם שכזה בהכרח שווה ל-0.

 

r(xi,
)=0– הסיבה היא שאם נעשה טרנספורמציה ליניארית ל, נקבל את xi. מהסיבה הזו לא קורה שום דבר למתאם והוא נשאר זהה לr(xi,xi), כלומר שווה ל-1.

 

r(xi,ei)=0- מבחינת עוצמת המתאם זה לא משנה אם נשים את xi, או את ולכן

אם r(,ei)=0., אזי גם r(xi,ei)=0.

 

וכן, r(xi,yi)=r(,y).

 

ניתן להגדיר מתאם קווי בין X לY, כעוצמת הקשר הקווי שבין האומדנים לערכי Yi במדגם.

 

  1. השונות של ערכי Yi עבור ערך קבוע של Xi זהה לשונות של ei עבור אותו ערך קבוע.

 

למשל אם נסתכל על הטבלה אזי:

השונות של:

88
83
84

שווה לשונות של:

1
-4
-3

זאת מכיוון שמדובר סך הכל בטרנספורמציה ליניארית של החסרה, ולכן השונות של התצפיות הללו תהייה זהה.

 

  1. תכונות (ממוצע ושונות) של החלק המוסבר והחלק הלא מוסבר במודל

 

ממוצע הניבויים-

 


 

ממוצע האומדנים במדגם שווה לממוצע הערכים האמתיים של Y במדגם (התצפיות).

 

ממוצע הטעויות-


 

ממוצע הטעויות במדגם תמיד יהיה שווה ל0.

 

 

כאשר אין ערך קווי, כלומר אין מודל, אזי ננבא פרמטר על הממוצע של כולם (קו ישר אופקי). נניח לפני שאנו פוגשים אדם אנחנו ננבא את הגובה שלו על פי הגובה הממוצע. כמו כן, אם נאמר כי יש קשר בין גובה האב לגובה הבת, אז ננבא על פי משוואת הרגרסיה הנתונה (או שנבנה). בתהליך הנ"ל אנחנו לכאורה משפרים את הניבוי שלנו, כלומר לא בהכרח הוא יקבל את שני הניבויים שלנו. בעצם יש שני "צעדים", תחילה אנו מצפים שאדם יקבל את הממוצע ולאחר מכן מנבאים לו את הגובה (זהו הפער המוסבר בעצם). הצעד השני הוא הגובה שלו באמת לעומת הניבוי- שזהו בעצם החלק הבלתי מוסבר. יש סיבה שאנו מנבאים לאדם גובה מסוים ששונה מהממוצע, אך אנו לא יכולים להסביר מה ההבדל בין הגובה האמתי שלו לניבוי שלנו.

 

כלומר, קיים מרחק בין התצפית לממוצע-

Yi-ybar=(-ybar)+(yi-)

 

מכאן ש:


 

SSY- סכום ריבועי הסטיות של כל תצפית מהממוצע הכללי.

SSREG- סכום ריבועי הסטיות של הקו מהממוצע.

Ssres/sse- סכום ריבועי הסטיות של כל תצפית מהאומדן.

 

Ssy=ssreg+ssres

(ניתן לראות שמדובר במודל דומה ל: sst=ssb+ssw)

 

Msres=ssres/n-2- שונות הטעויות

(דרגות חופש- כמספר האומדנים שצריך לחשב לשם חישוב השונות, כך דרגות החופש שעלינו להחסיר. זאת על מנת לנטרל את התלות הפנימית. על מנת להגיע לאנו מחשבים 2 אומדנים- ו, ולכן דרגות החופש הם 2).

 

הערות

  1. Msres- זוהי אותה שונות שרצינו שתהייה מינימלית על פי עיקרון הריבועים הפחותים, כלומר הכוונה היא ששונות הטעויות תהייה
    הקטנה ביותר שניתן, הכוונה היא שהפיזור סביב קו הרגרסיה יהיה קטן ככל שניתן. אם שונות הטעויות שווה ל-0 בעצם המודל שלנו מושלם, לכן ככל שהשונות תהייה קטנה יותר המודל שלנו טוב יותר. משונות המודל ניתן להסיק על איכות המודל
    .
  2. חישוב msres מבוסס על הנחה שנצטרך לבדוק בהמשך, שקיים שוויון שונויות של הטעויות בכל אחד מהX באוכלוסייה.
  3. הMSRES הוא אומדן חסר הטיה לשונות הטעויות באוכלוסייה () , בנוסף נהוג לכנות את ה גם השונות של Y בניכוי ההשפעה של הקשר הקווי שבין X לY.

 

  1. פרופורציית השונויות- על אותו רעיון של ETA בריבוע: ssreg/ssy- כלומר פרופורציית השונות המוסברת.

    במדגם r^2- פרופורציית השונות המוסברת

    1-r^2- פרופורציית השונות שלא מוסברת

 


 

דוגמה: במדגם מקרי של 41 תלמידים נמצא כי המתאם בין ציוני המיון להישגים הוא 0.5. כמו כן נצא כי השונות של הישגי התלמידים שווה ל100. חשב את המדדים הבאים:

  1. פרופורציית שונות מוסברת
  2. פרופורציית שונות שאינה מוסברת
  3. אומדן חסר הטיה לשונות הטעויות

 

N=41

r(x,y)=0.5

sy=100

r^2=0.5^2=0.25

1-r^2=0.75

 

Msres=ssres/n-2=(sy^2*(n-1)*(1-r^2))/n-2

 

((sy^2*(n-1)=ssy

Ssres=(1-r^2)*ssy

Ssreg=r^2*ssy

Ssres+ssreg=ssy

 

(100*40)*0.75/39=77

 

לצילום של ד"ר גילה קינן

 

לצילום של מר תמיר פראוי

 



אחד × = 5

תואר ראשון
תואר שני
מרצים