שם הכותב: תאריך: 02 אפריל 2014

סטטיסטיקה 3- שיעור 7

 

Ssy=ssreg+ssres

בעצם SSY שווה לסכום התצפיות כאשר מכל תצפית נפחית את הממוצע הכללי ונעלה בריבוע. מדובר בעצם במונה חישוב השונות, אך אנחנו לא מחלקים בדרגות החופש כיוון שלכל חלק במשוואה יש דרגות חופש שונות. זה בעצם הניבוי שננבא לכל אחד מהתצפיות כאשר אין לנו עדיין השערות כלשהן. כמו כן SSREG , זה החלק שאנחנו יכולים להסביר מהSSY. הSSREG שווה לסכום התצפיות המנובאות פחות הממוצע הכללי בריבוע. בעצם זהו חישוב של החלק שאנחנו יכולים להסביר, למה יש הבדל בין הממוצע הכללי לתצפית- או בעצם לחלק מההבדל הזה שנובע מהניבוי. הSSRES בעצם מדבר על החלק שאנחנו לא יכולים להסביר, בעצם סכום התצפית האמיתית לתצפית המנובאת בריבוע. זהו החלק שאין לנו כרגע תשובה למה הוא קורה ומאין השוני נובע.

 

הקבלה בין eta^2 לr^2

Ete^2 R^2
משתנה בלתי תלוי- איכותי שני המשתנים כמותיים
משתנה תלוי- כמותי
א-סימטרי– מהרגע הראשון יש תלוי ובלתי תלוי שאחד מוסבר על ידי השני. לא ניתן להחליף ביניהם. סימטרי- אם נסביר את X לפי Y, ואת Y לפי X, נקבל את אותו מתאם.
כל השפעה קשר ליניארי- כופים קשר ליניארי מסוים מאד על שני המשתנים
<=eta<=10 -1<=r<=1

 

r2* ו1-r^2 אלו פרופורציות שאנו משתמשים במדגם!!!

 

Eta^2 בודקת אם יש הבדל במדגם, בעוד r^2 בודקת אם יש קשר מאד מסוים בין המשתנים. כלומר הדרישה מeta יותר פשוטה ולכן אם לכאורה נבדוק את הקשר של אותם משתנים על פי eta ועל פי r, eta לרוב תצא יותר גדולה. הr לכאורה יותר מחמיר, דורש קשר מסוים.

 

5. הסבר, מדוע פיזור ערכי Yi עבור כל ערך קבוע של Xi זהה לפיזור הטעויות עבור אותו ערך קבוע של Xi? (התייחס למודל הרגרסיה הפשוטה).

 

אם לכל תצפית נחשב את הטעות אזי נקבל e1, e2…. וכו' לכל y1, y2…. וכו'. מדובר על שינויים בתוך הקבוצה, כלומר בתוך ערך קבוע מסוים של X. ההבדל בעצם בין התצפית עצמה לטעות היא הניבוי עצמו לאותה קבוצת X, שהרי הוא Y מסוים 1. לכל ההבדל בין כל e1 לy1 יהיה y קבוע שהוא הניבוי של x. מכאן שהשוניות יהיו שוות זו לזו.

 

  • על מנת לעבור מxi לy המנובא, אנחנו משתמשים בקו הרגרסיה, כלומר מבצעים טרנספורמציה ליניארית, לכן:

    r(xi,yi) =r(y-expectedly, yi)

 

8. כדי לחשב את שונות הטעויות בניבוי Y מתוך X די לחשב את שונות הטעויות בתוך אחת מקבוצות X בלבד. חווה דעתך.

 

השאלה שנשאלת היא- על מנת לחשב את השונות בתוך הקבוצות כולן, די לחשב את השונות בתוך קבוצה אחת. על פי ההנחה, השוניות בין הכלל הקבוצות באוכלוסייה שוות. לכן כל הבדל בין השוניות במדגם הוא הבדל מקרי שנובע מטעות דגימה בוודאות. אזי למה אנו משקללים את האומדנים של השוניות על מנת להגיע לשונות המשוקללת ולא משתמשים באחת מהן? אומדן לשונות צריך להיות אומדן חסר הטיה וכן יעיל.

לכן, אנחנו לא יכולים לחשב את שונות הטעויות רק בתוך אחת מהקבוצות, אלא עלינו לחשב את כלל הקבוצות על מנת להגיע לאומדן יעיל יותר שמבוסס על יותר תצפיות. בחישוב הmsres, אנו מניחים שהשוניות באוכלוסייה שוות, זו הנחה סמויה ששונות הטעויות באוכלוסייה שווה לכל אחת מהX. אם השאלה הייתה מדברת על האוכלוסייה- התשובה הייתה "כן". במדגם, לכל אחד יש מספר קטן מדי של תצפיות, ישנה בעיה של יעילות.

 

משוואה מתוקננת

הכוונה בתקנון היא בעצם להפוך משוואה לכך שהיא "מדברת באותה שפה". אם נרצה להסביר בעצם הבדלים על ידי 2 משתנים כאשר משתנה אחד הוא לדוגמה IQ, ומשתנה אחר הוא שעות לימוד, הם לא "מדברים" באותה השפה ועלינו לתקנן אותה. השימוש במשוואה מתוקננת נועד כדי לסייע בהחלטה מי מהמשתנים הבלתי תלויים תורם יותר לניבוי ומשמעותי יותר. כאשר המשוואה בציוני גלם, נשתמש בה לשם ניבוי. ברגרסיה עם משתנה אחד אין טעם להשתמש במשוואה הזאת כי מדובר רק במשתנה אחד שאין למה להשוות אותו.

 

zy y zx x
0 90 0 80 ממוצע
1^2 2^2 1^2 3^2 שונות

 

במשוואה מתוקננת הZ של תמיד שווה ל-0. כלומר תמיד ייצא מראשית הצירית. במשוואה מתוקננת השיפוע יהיה שווה לעוצמת המתאם הקווי שבין X לY, כלומר r. Z של – שווה לr.

 


 


משמעות השיפוע במשוואה מתוקננת: שינוי בסטיית תקן אחת של X, גורם לr סטיות תקן באומדן של y.


במודל רגרסיה הניבוי הוא נסיגה לכיוון הממוצע.

 

הסקה לאוכלוסייה

בשיעורים הקודמים ראינו איך מזהים אם קיים קשר קווי באוכלוסייה- נבחן על ידי הפלט. עשינו את המבחן על פי ההשערות:

H0: ρ=0

H1: ρ≠0

 

האם המשוואה מובהקת\טיב הניבוי? הכוונה היא האם יש\אין ניבוי באוכלוסייה.

H0: ^2ρ=0—–> β=0 (פלט\מבחן z – לא נלמד)

H1: ^2ρ≠0—–>β≠0

 

נבדוק את ההשערות על פי מבחן F. אם נדחה H0, הרי שנדחה את H0 גם בשאלה של- האם השיפוע מובהק? (ראה בהמשך)

 

כלומר האם הβ שווה ל-0 הרי שאין ניבוי.

כלומר האם יש\אין פרופורציה מוסברת?

 

שאלה נוספת שנשאלת היא האם השיפוע מובהק באוכלוסייה?

H0: β=0

H1: β≠0

 

נבחן כל β בנפרד על פי מבחן t.

 

ברגרסיה חד משתנית, אם דחינו H0 באחת משלושת השיטות, הרי שנוכל להסיק לגבי שאר המבחנים וההשערות. לדוגמה אם קיבלנו שאים קשר קווי, אז כל המשוואה לא יכולה להיות מובהקת וכן כמובן שהשיפוע יהיה שווה ל-0. ניתן לבצע רק ברגרסיה מסוג זה הקשר לוגי לשאר המבחנים, הסיבה היא שיש משתנה אחד בלבד. על ידי אותו משתנה אנו מגיעים לשאר החישובים.

שאלה שיכולה להופיע: האם ניתן להסיק ללא חישוב נוסף על סמך מבחן F, האם על פי מבחן T השיפוע מובהק באוכלוסייה?- התשובה היא כן.

 

הנחות

כיוון שאנחנו במודל קבוע, אנחנו מניחים את ההנחות במונחי הטעויות. נעשה זאת כיוון שהשונות של התצפיות של ערך קבוע של X, שווה לשונות הטעויות של ערך קבוע של X. (במודל יש דף שמציג את הנחות במונחי התצפיות, במסגרת הקורס אנחנו משתמשים במונחי הטעויות, אך מדובר באותו הדבר).

  1. דגימה מקרית- טעויות בלתי תלויות זו בזו

    עבור i≠j

     

  2. תוחלת הטעויות עבור כל ערך קבוע של xi שווה ל-0

    אם ההנחה לא מתקיימת אנחנו לא יכולים להשתמש במודל הספציפי הזה. הכוונה היא בעצם שאם בכל פעם שניקח קבוצה אחרת של טעויות עבור X מסוים, הממוצע שלהם יהיה 0. לכן, אם סכום הסטיות של הטעויות מהקו הוא 0, בעצם המסקנה היא שמדובר בממוצע. אם ההשערה הזו מתקיימת אזי:



     

  3. שונויות הטעויות עבור כל ערך קבוע של xi שוות

    אם אין שוויון שוניות אנחנו לא יכולים להשתמש בmsres כגודל יעיל לאומדן באוכלוסייה. המטרה של הנחה זו היא להביא למינימום את הmsres המביא לאומדנים יעילים. אם לא נחשב msres, אלפא וביתא לא יהיו יעילים.

     

  4. הטעויות מתפלגות נורמלית עבור כל ערך קבוע של xi

    הנחה זו מבטיחה לנו שהסטטיסטי אלפא כובע וביתא כובע יתפלגו אף הם נורמלית וכך נוכל בהמשך לבנות התפלגויות דגימה לכל אחד מסטטיסטים האלו, לבדוק השערות וכו'.

     


    עבור כל ערך קבוע של xi (מרכז את שלושת ההנחות האחרונות)

 

לסיכום: הנחות להסקה באוכלוסייה

  1. דגימה מקרית- טעויות בלתי תלויות זו בזו

    עבור i≠j

  2. עבור כל ערך קבוע של xi.

 

 


 

 

 

דרגות חופש

Ssreg- השיפוע יהיה לפי מספר המשתנים הב"ת- יקרא K.

Ssres- מתחלק לשיפוע והקבוע. אם יש ריבוי של משתנים ב"ת אזי נוריד מהN את מספר המשתנים הב"ת ועוד 1. לדוגמה אם יש 3 ב"ת אז- n-3-1.

 

*אם נעשה קיצוץ תחום יותר קשה לדחות h0 ולהראות שהמשוואה מובהקת. גם ssx קטן וגם הr ייחלש.

 

* אם לא מבקשים לבנות את טבלת מקור השונות, ניתן לחשב ישירות את F- דורש את r וn בלבד. (אם נדרש לבנות את טבלת מקור השונות, יש לבנות את כולה כנדרש).

 

דוגמה: חוקר מעוניין לבדוק האם תוצאות מדגם של 60 סטודנטים בהם מתקבל מתאם בין ציונים פסיכומטריים לציוני סוף שנה א' השווה ל0.6, מעידים כי המשוואה לניבוי הציונים מובהקת באוכלוסייה. בדוק ברמת מובהקות α=0.05.

 

השערות:

H0: ^2ρ=0—–> β=0

H1: ^2ρ≠0—–>β≠0

 


 

32.62>4- לכן דוחים h0.

 

מסקנה: ברמת מובהקות 0.05, המשוואה לניבוי ציונים על סמך ציוני הפסיכומטרי מובהקת באוכלוסייה.

  • ניתן להסיק לגבי השיפוע והמתאם.

 

 

לצילום שיעור ד"ר גילה קינן

 

לצילום של מר תמיר פראוי

 


 




שש − 2 =

תואר ראשון
תואר שני
מרצים