שם הכותב: תאריך: 30 אפריל 2014

סטטיסטיקה 3- שיעור 9

 

רגרסיה פשוטה: דוגמה 1

בדיקת הקשר בין שטח הדירה למחירה באלפי דולרים

דיאגרמת פיזור וקו הרגרסיה, מתאם, משוואה לניבוי ובדיקת מובהקות

הקשר בין גודל שטח הדירה לבין המחיר שלה. כאשר השטח הוא המשתנה ב"ת. המחירים הם באלפי דולרים. בדיאגרמת פיזור ניתן לראות קשר חיובי חזק.

Rsq= הכוונה שבאמצעות השטח ניתן להסביר ב60% את מחיר הדירה.


 

 

במודל קבוע ערכי האיקסים שיש במדגם קריטיים. המסקנות שאנחנו מסיקים יהיו טובות אך ורק לטווח שבין המינימום למקסימום.


 

בדיקת מובהקות:

 


 

 

ההצגה של רגרסיה בפלטים תהייה טובה גם למשתנה אחד וגם להרבה משתנים.

יש להכיר את המבנה, אך לא הכול רלוונטי וחשוב לרגרסיה חד משתנית.

 

 

 

Regression

 

מה הם המשתנים הב"ת במודל, ניתן לראות שיש 1. פחות רלוונטי לחד משתנית.

b- מתייחס למהו המשתנה הבלתי תלוי.

הטבלה עוזרת להכין מה היה סדר כניסת המשתנים למשוואה.

מה השיטה שהחוקר בחר להכניס את המשתנים למשוואה.

 

במשתנה בלתי תלוי 1, זה לא משנה. בכמה משתנים יש שיטות שונות שנלמד בהמשך.


 

R- הסימון של R הוא סימון של מתאם ברגרסיה רב משתנית, הוא משקף את כלל המשתנים. התכנה תוציא את הסימון כברירת מחדל. לא ניתן לדעת אם R חיובי או שלילי, יש לבחון זאת בדרכים אחרות, למשל דרך הגרף.

 

R SQUARE- r^2.

 

ADJUSTED- r^2 מתוקן. נתייחס בהמשך. ניתן לראות שהוא קרוב מאד לr^2.

 

STD ERROR- טעות התקן של האומדן. טעות זו שווה לסטיית התקן של הטעויות. בעצם שורש של MSRES.


 

 

 

האם יש או אין מודל\ניבוי\משוואה באוכלוסייה?

H0: β=0

H1: β0

H0: ^2ρ=0

H1: ^2ρ≠0

 

MODEL- מקור השונות. RESIDUAL- שאריות (מה נשאר שלא הצלחתי להסביר). REGRESSION- מוסבר.

SUM OF SQUARES- סכומי הריבויים. עמודת הSS- SSY, SSRES וSSREG.

MSRES= ssres/n-2

MSREG=ssreg/1


משוואת הקו הישר על פי הטבלה:

 

Y=75.997+0.934xi

שינוי ביחידת שטח אחת בדירה, תגרום לשינוי של 0.934 במחיר הדירה. יש לשים לב כי מדובר באלפי שקלים, כלומר יחידה של שטח תגרום לעלייה של כמעט אלף דולר במחיר הדירה.


 

על ידי הרווחי סמך ניתן לבדוק השערות מסוימות ללא חישוב נוסף.

איתור תצפיות חריגות

(תצפיות בעלות שארית עם ציון תקן הגבוה מ-2 בערכו המוחלט)

בחינה האם משתנה מתפלג נורמלית:

תקנון הטעויות- RESIDUAL- ע"י התקנון בעצם ניתן לזהות אם הטעות היא קיצונית או לא. בערכים גולמיים קשה לזהות אם מדובר בערכים קיצוניים או לא. בעצם הערך המתוקנן הוא std.residual. הערכים הגולמיים הם residual.

בכדי להחליט אם יש התנהגות נורמלית, בודקים אם אחוז הערכים הקיצוניים תואם את האחוז שמופיע במקרים קיצוניים בהתפלגות נורמלית (5%- 2.5.% בכל צד). כמו כן, נבדוק אם יש סימטריה בין הערכים השליליים לחיוביים- פחות או יותר מתקזזים.

 

 


 

 

משתני הרגרסיה- מדדי סטטיסטיקה תיאורית ומתאמים

 

Correlations

 

סטיית התקן של ei מוטעית- לא להשתמש בה להסקה.

סטיית התקן של y͞i – לא למדנו ולא לשימוש.


 

 


 

רווח סמך לתוחלת ולערך של המשתנה התלוי

  1. תצוגה גרפית

 

*רווח הסמך לתוחלת יהיה תמיד יותר צר מאשר הרווח סמך לערך עצמו.

*רווחי הסמך הם לX0 מסוים. כלומר רווח בר סמך לערך מסוים. אורך הרווחים לא יהיו שווים בין X0 אחד לאחר, זה תלוי בערכו של X.

Graph


 

 

חישוב למס' תצפיות

 


 

 

המתאם בין הטעויות לניבויים חייב להיות 0. בעצם הפיזור הנ"ל יהווה את בסיס הבדיקה של ההנחות שלנו. אם יצא מדגם שהוא לא 0- מדובר בטעות חישובית. חייב להיות 0. בין הPRED לRESID יהיה 0, ייתכן ותהייה שאלה על פלטים שיהיה צורך למצוא את הטעויות בהם. אם בחפיפה ביניהם לא יהיה 0 זו טעות.

 


 

בדיקה להנחות המודל

הבדיקה היא בדיקת עין, הערכה. כשעונים על תשובות, יש להגיד מה בודקים ולרשום התרשמות. ייתכן שיהיה מגוון תשובות במבחן שכזה- אין שחור ולבן.

יש לבדוק אם הנחות המודל מתקיימות עבור כל ערך קבוע של xi. מאחר ובדיקת ההנחות מתבצעת באמצעות ניתוח דיאגרמת פיזור שבין הטעויות ei לניבויים yi (כובע), אנו בודקים למעשה אם הנחות המודל מתקיימות עבור כל ערך קבוע של yi (כובע). מאחר וyi היא טרנספורמציה ליניארית של xi, אין בעיה לעשות זאת. ניתן לבדוק את ההנחות ואפילו עדיף באמצעות דיאגרמה שבין הטעויות המתוקננות (Z של הטעויות המתוקננות לניבויים המתוקננים. שכן קל יותר לאתר ולהוציא מהניתוח תצפיות חריגות.)

 

 

בדיקה תוחלת 0: בכדי לבחון האם התוחלת היא 0- נבחן האם במדגם פחות או יותר הטעויות עבור כל ערך קבוע של XI, מתקזזות. (מעל ומתחת לקו הממוצע). צריך להסתכל אם הם מתקזזים בערך, הפרות קטנות לא יפילו את המבחן כיוון שבכל זאת מדובר במדגם. חריגה משמעותית תהייה בעייתית.

 

שונויות שוות: משתמשים בתחליף לשונות מבחינת פיזור- בעצם טווח. יש לבחון האם הטווח של התצפיות נשמר פחות או יותר שווה לאורך כל הדרך.

 

הנחת נורמליות: התפלגות נורמלית מאופיינת על ידי ריכוז גדול של מקרים סביב הממוצע ומעט יותר בקצוות. כמו כן, סימטריה. נבדוק בגרפים האם יש ריכוז סביב הקו ופחות בקצוות. בודקים לכאורה התפלגות נורמלית 'שוכבת' (לכאורה ציר הY הבסיס של ההתפלגות), חיבור ערכי ה-0 יביא לקו-0 שסביבו נבחן את ההנחות. אזי נבדוק ריכוז גבוה קרוב לקו ה0. במבחן חייבים לרשום מה אנו מחפשים ולרשום התרשמות על הבחינה שלנו. אין שחור ולבן, ניתן לפרש באופן שונה לפעמים את מה שאנחנו בוחנים כיוון שמדובר במבחן עין. דיאגרמת פיזור: ניבויים * שאריות

 

(בציוני תקן)

 

ניתן לראות שמדובר בטעויות מתוקננות לפי ה0 באמצע.

 

 

בחינת הנחות המודל:

תוחלת 0- יש קיזוז פחות או יותר.

 

שונויות שוות- הטווח פחות או יותר נשמר, בין -1 ל1 יש פיזור קטן יותר שפחות עומדת בהנחה.

 

נורמליות- אין ריכוז באמצע. יש פחות או יותר סימטריה, אך יש הפרה בנורמליות.

 

מדובר במדגם ולכן אנחנו מצפים שתהייה סטייה מהנורמליות, לא נפסול הנחות ישר. צריכים לבחון האם יש הפרה בוטה של ההנחה או קצת. יש מקום לכמה תשובות אפשרויות ולכן חשוב להגיד מה אנחנו מחפשים.


 

 

בציוני גלם
אותו גרף רק בציוניים גולמיים


 

 

 

דוגמאות לאי עמידה בהנחות המודל

 

דוגמא א'

יש קשר ליניארי בגרף, 0.778
קשר חזק חיובי לכאורה
.

Graph


 

 

 

 

 

 

Correlations


 

 

Regression

 



 

 

Charts

 

בחינת הנחות המודל:

תוחלת 0- האם התצפיות השליליות מתחת ומעל מתקזזות אחת עם השנייה. עושים את הבחינה לכל xi. ניתן לראות שאין קיזוז. כלומר, לא עומדים בהנחה הזו.

ברגע שהנחה אחת לא נכונה, לא חייבים להמשיך, ההנחות נפלו.

 

שונויות שוות- בדיקת הטווח לאורך כל XI. ניתן לראות שהטווחים בגרף נשמרים- בוחנים את הטווח של כל XI, כלומר הערך הגבוה פחות הנמוך לכל XI טווח שונה. הבדיקה היא שהטווחים הללו שווים בין XI לXI אחר.

 

נורמליות- אין סימטריה והריכוז הוא בקצוות.


 

דוגמא ב'

 

Graph


 

 


 

Regression

 



 

 

Charts

בחינת הנחות המודל:

תוחלת 0- נראה שכן.

 

שונויות שוות- הטווחים לא שווים זה לזה.

 

נורמליות- ייתכן שכן… יש לדון בכך. בהתחלה כן ובסוף קצת פחות. יש ריכוז במרכז וסימטריה.


 

 לצילום של ד"ר גילה קינן

 

לצילום של מר תמיר פראוי

 

 

 

 



− שלוש = 6

תואר ראשון
תואר שני
מרצים