שם הכותב: תאריך: 23 אפריל 2014

סטטיסטיקה 3- שיעור 8




 

ההנחות משותפות לכל הבדיקות שעשינו בעבר וכן לשיעור הנוכחי.

בשיעור הקודם בדקנו לגבי הסקה לאוכלוסייה האם יש קו באוכלוסייה- זאת על ידי קו הניבוי במדגם.

ההשערות היו:

H0: β=0

H1: β≠0

 

כלומר האם יש שיפוע לקו של האוכלוסייה, הרי אם אין שיפוע, אין קו ואין מודל. אם יש שיפוע, בהכרח קיים קו ניבוי באוכלוסייה. במילים אחרות השאלה הנשאלת היא האם קיים מודל או לא?

לכן ניתן גם לרשום את ההשערות באופן הבא:

 

H0: ^2ρ=0

H1: ^2ρ≠0

 

החישוב הוא:


בעקרון כל שצריך הוא את הr ואת גודל המדגם על מנת לדעת אם דוחים או לא את H0. בחישוב הF יש בעצם יחס בין שונויות, היחס הנ"ל יתפלג F רק במידה ושני האומדנים יהיו אומדנים לאותה השונות. כלומר יחס בין שני אומדנים של שונות מתפלג F כשהאומדנים הם אומדנים לאותה שונות.

 

MSREG- אומד את Δ+^2σ

MSRES- אומד את ^2σ

 

אם האומדנים הם אומדנים לאותה השונות, F יצא פחות או יותר 1. רק אם נקבל יחס שהוא גדול משמעותית מ-1, אזי נסיק שייתכן שקיים גודל אפקט. בעצם MSREG וMSRES לא אומדים את אותה השונות.

לסיכום, אם H0 נכונה אזי MSRES וMSREG אומדים את אותה שונות.

אם H1 נכונה, אזי הם לא אומדים את אותה השונות וקיים גודל אפקט.

 

ברגרסיה חד משתנית יש משתנה בלתי תלוי אחד. אם הקשר בינו לבין המשתנה הבלתי תלוי לא מובהק, אז בהכרח המשוואה והמודל לא יהיו מובהקים גם כן. בעצם אין ביתא אחרת שתיתן את מובהקות המודל- יש רק 1.

 

H0: ρ=0
H1: ρ≠0
H0: ^2ρ=0
H1: ^2ρ≠0
H0: β=0
H1: β≠0
האם המתאם הקווי מובהק באוכלוסייה? אם המודל באוכלוסייה מובהק? האם השיפוע באוכלוסייה מובהק?

 

מבחן T

כאשר נציב בהשערות:

H0: β≤מספר שונה מ-0

H1: β<מספר שונה מ-0

 

 

התפלגות דגימה של הסטטיסטי

 


 

ככל שהשונות תהייה יותר קטנה, הסיכויים לדחות H0 יהיו יותר גדולים. נקטין את השונות על ידי שני הגורמים שמרכיבים אותו:

 

  1. – שונות הטעויות- MSRES- ככל ששונות הטעויות קטנה יותר, השונות של התפלגות הדגימה תהייה קטנה יותר. כאשר הקשר הקווי בין המשתנים חזק יותר, הפיזור יהיה קטן יותר סביב הקו ולכן שונות הטעויות תהייה קטנה יותר. זהו נתון שלא בשליטת החוקר.

     

  2. SSX- סכום ריבועי הסטיות של הX- בעצם המונה של השונות שלX. אם נעשה קיצוץ תחום הSSX יקטן לדוגמה, והשונות של התפלגות הדגימה תגדל והסיכויים לדחות את H0 יקטנו. כלומר יהיה יותר קשה לדחות את H0.

 

דוגמה: במדגם מקרי של 10 תלמידים (n=10), התקבלו הנתונים הבאים:

MSRES= 169.757

= 0.858-

= 0.938

SSX= 2607.6

X͞= 66.8

 

 

השערות:

H0: β=0

H1: β≠0

 

חישוב סטטיסטי:

 


 


 

נניח α=0.05, השערה דו כיוונית.

נדחה H0 אם t>2.306

t<-0.306

 

מסקנה: 2.306<3.67 ולכן השיפוע באוכלוסייה שונה מ-0 ברמת מובהקות של 0.05. כלומר באוכלוסייה יש משוואה ומתאם קווי מובהק.

 

רווח בר סמך ל

 


 



 

ברמת ביטחון של 95%, הרווח המקרי באוכלוסייה יהיה ברווח שבין 0.399 ו1.52.

 

אמידת הערך האמיתי

 


 

= אמידת תוחלת

= אמידת הערך האמיתי.

 


 


השפעה על דחיית H0-

  1. גודל המדגם- יהיה יותר קל לדחות H0.
  2. שונות הטעויות- שונות קטנה יותר תעזור לדחות H0.
  3. SSX- קיצוץ תחום יגדיל את השונות ויהיה קשה יותר לדחות.
  4. האמידה תהייה מדויקת יותר ככל שנבחר X0 שקרוב לממוצע.

רווח בר סמך לערך

מוסיפים לרווח בר סמך את פיזור הטעויות. הכוונה היא שעושים רווח בר סמך על הרווח שבנינו לתוחלת. רווח שנבנה סביב הרווח. נחשב על ידי הפלטים. הרווח יותר רחב מהרווח שחישבנו על התוחלת.

דוגמה לרגרסיה חד-משתנית:

 

נבוי המכירות באמצעות ההוצאות על פרסום (אלפי ₪)

מאפיינים תיאוריים של שני המשתנים

 


 

המינימום והמקסימום הם הערכים המינימליים והמקסימליים שיצאו במדגם. במודל קבוע אנחנו בעצם יכולים להסיק על אותם איקסים שדגמנו. ניתן להסיק מבחינת המודל רק על אותם איקסים שנמצאים בתוך הטווח שדגמתי. לא ניתן לדעת אם הקשר הליניארי מעבר הטווח שדגמנו נשמר. כלומר לא ניתן להסיק על X=80, כיוון שהוא לא בטווח.

 

דיאגרמת פיזור=

 

ניתן לראות שמגמת הקשר חיובית, כלומר ככל שהפרסום הולך וגדל גם המכירות הולכות וגדלות. מכיוון שמדובר בכסף החותך של הגרף עם ציר הY הוא שלילי (למרות האי הגיון שבכך), אנחנו נראה רק את הרביע הנ"ל כיוון שלא ייתכן שכמות כסף תהייה שלילית. הקו המצויר הוא בעצם x͞. זה הניבוי שננבא אם לא היה לנו את משוואת הרגרסיה.

Rsq= מדובר על r^2. ניתן להוציא שורש אך לא ניתן לדעת את הסימן של הקשר הקווי ללא ציור או נתונים נוספים.

Graph


 

 

המתאם בין המשתנים

H0: ρ=0

H1: ρ≠0

נבדוק על פי הsig. Sig<0.05.

ניתן לראות גם כי יש * ליד הנתונים, כלומר עבור רמת מובהקות 0.01- מתאם מובהק. אם נוציא שורש מ267.955 נקבל את סטיית התקן של X, וכן את סטיית התקן של Y אם נוציא שורש מ47459.857.

Correlations


 

 

 

משוואת קו הרגרסיה


 

Unstandardized– משוואה בציוני גלם. נתונים גולמיים.

כלומר:

=-41.586+10.348x

כלומר שינוי ביחידה אחת של שקל אחד של פרסום יגרום לשינוי של 10.348 באומדן של המכירות.

על מנת לחשב את טעות התקן, ניקח את החלק התחתון שרשום בstd.error, כלומר 1.745.

Standardized- משוואה בציוני תקן- משוואה מתוקננת. השימוש בה מאפשר לנו להשוות בין המשתנים ולדעת מי מהם משמעותי יותר או תורם יותר לניבוי. כשיש משוואה בציוני גלם לא ניתן להשוות- אך אם נתקנן את הגובה ואת המשקל לדוגמה- אז ברור יהיה איזה מהם קיצוני יותר.

ברגרסיה חד משתנית יש משתנה אחד, אז אין כ"כ שימוש בנתונים אלה.

בעצם הנתון תחת Standardized יהיה r (0.778).

Constant- אלפא

x- ביתא- לשיפוע של אותו משתנה.

T,sig- הסקה מתייחסת להשערה דו צדדית.

ניתן לבדוק מספר השערות:

H0: a=0

H1: a0

H0: β=0

H1: β0

כלומר, לא נדחה H0 עבור a כיוון שsig>a. הכוונה היא שהישר עובר דרך ראשית הצירים ואין לכך כ"כ משמעות.

עבור β נדחה H0, כיוון ש sig<a. לכן השיפוע מובהק באוכלוסייה.

 

 

 

 

משתני הרגרסיה והמדדים שלהם- פרסום (ב"ת), מכירות (תלוי), ניבויים, שאריות

PRED- הניבויים

RES- השארית


 

מתאמים בין משתני הרגרסיה

r(e,yi)=0-אין קשר בין הטעות לניבוי. שני דברים שונים בהכרח.

r(e,xi)=0- אם X הוא טרנספורמציה ליניארית של yi, אזי בוודאות גם המתאם יהיה שווה 0.

r(xi,yi)=1

r(X,y)=r(yi,y)- טרנספורמציה של x.

r(yi,ei)- שורש של 1-r^2

R^2=0.778^2



לצילום של ד"ר גילה קינן

 

לצילום של מר תמיר פראוי

 

 

 

 

 

 



3 + = שבע

תואר ראשון
תואר שני
מרצים