שם הכותב: תאריך: 19 מרץ 2014

סטטיסטיקה 3- שיעור 5

 

  1. קשר שלילי חזק

Graph


 

ניתן לראות בפיזור קשר שלילי. כשיש קשר שלילי צריך לזכור שהקשר מסומן עם מינוס, כלומר שלילי.

 

Correlations


 

בנתונים ניתן לראות משתנה נפח המנוע וכן הצריכה לקילומטר.


המתאם בין שני המשתנים הוא -0.704, מדובר במתאם שלילי גבוה. אם נבחן את ההשערה:

H0: ρ=0 אין מתאם

H1: ρ≠0 יש מתאם

 

נבדוק את ההשערות על פי SIG וα. אם SIG<α נדחה H0.

 

*כשאנחנו מגדילים את גודל המדגם יותר קל לדחות את H0 כיוון שאנחנו הולכים ומתקרבים יותר ויותר לגודל האמתי של האוכלוסייה, במילים אחרות, טעות הדגימה שיכולה להיות לנו הולכת וקטנה. ברגע שנגדיל את גודל המדגם, כל הבדל הופך להיות לכאורה יותר אמתי, כיוון שאנו מתקרבים לאוכלוסייה. לכן כל מתאם, אפילו אם הוא קטן יכול להיות מובהק. מובהקות לא אומרת בהכרח שהקשר חזק.

 

ניקח לדוגמה שכר- אם הממוצע בשכר באוכלוסייה הוא 500. במדגם שנבחן של 10 אנשים נקבל ממוצע של 550, וכן במדגם של 10,000 אנשים נקבל ממוצע של 550 גם כן. עבור 10 אנשים לא נצליח להראות את המובהקות של הקשר החלש, אך עבור מדגם של 10,000 אנשים יש יותר סיכוי שנצליח להוכיח מובהקות כזו.

 

אם הצלחנו להראות תוצאה מובהקת של מתאם נמוך, סביר להניח שמדובר במדגם גדול והתוצאה אמנם לא חזקה במיוחד אך היא מובהקת.

 

נשחזר את החישוב של -704 על ידי חילוק על הCOV במכפלת סטיות התקן.

 

ג. מתאמים בעוצמות שונות וכיצד זה מתבטא בדיאגרמת הפיזור

 

Graph


 

 

 

 

 

 

 

קשר שאינו מושלם אך מאד חזק.


 

 

 

 

 

 

 

 

הקשר אמנם די גבוה 0.518, אך הוא לא נראה כך על גבי הגרף.


 

 

 

 

 

 

 

רואים כי אין קשר על גבי הגרף וניתן לראות כי הקשר אינו מובהק. אם היינו לוקחים מדגם יותר גדול, יכול להיות שהיינו מצליחים להוכיח מובהקות על אותה רמת מובהקות (0.12).

העובדה שיש לנו מעט תצפיות, אנו עדיין לא נראה מובהקות כיוון שאנו "נזהרים". רק אם רמת הקשר תישאר כשנגדיל את המדגם, נרשה לעצמנו להוכיח מובהקות.

 

ד. קשר שאינו ליניארי (פרבולי)


 

 

 

 

 

 

אם נסתכל על המטריצה בלבד היינו אומרים שאין קשר קווי, אך לא היינו מזהים שיש קשר אחר. לכן חשוב לבחון את הגרף.

 

 

ו. השפעות של ערכים קיצוניים

  • מקרה ראשון שבו הקיצוניים מקטינים קשר

 



 

 

 

 

 

ניתן לראות שיש קשר ליניארי, אך קיימים 4 ערכים קיצוניים. ניתן לראות שעל פי הטבלה אין קשר בין המשתנים- 0.023. הסיבה היא הערכים הקיצוניים.

אותם נתונים לאחר השמטת 4 תצפיות שבניגוד למגמה


 

 

 

 

 

 

 

כאן ניתן לראות שלאחר שהוצאנו על הערכים הקיצוניים, בעצם חשפנו קשר קיים שלא ראינו אותו בגלל התנהגות של ערכים קיצוניים.

קיצוץ תחום- Restriction of range

 

קיצוץ תחום הוא בעצם מצב שבו החוקר אינו משתמש בכל הטווח האפשרי של X.

קיצוץ תחום לעיתים מתבצע במכוון ולעיתים זהו אילוץ שיש לקחת אותו בחשבון.

 

לדוגמה: מיון לאוניברסיטאות לדוגמה הוא על פי פסיכומטרי- אנחנו בעצם מניחים שקיים קשר בין פסיכומטרי לבין הישגים בתואר. נניח שמציון 550 ומעלה אנחנו מקבלים ללימודים, ובסוף התואר אנו עושים מתאם ומקבלים נניח 0.7. האם אנחנו לקחנו בחישוב את כל הטווח של הפסיכומטרי?

לא. אנחנו לא לוקחים בחשבון את כל אלו שלא הצליחו להיכנס ללימודים באוניברסיטה כיוון שמעולם לא נתתי להם הזדמנות ללמוד את התואר. אנחנו בעצם מקצצים את הטווח של הX, ובודקים את המתאם במכוון על חלק מהאוכלוסייה- רק על הערכים של הציונים הגבוהים בפסיכומטרי. זו בעצם תופעה של קיצוץ תחום.

ניתן להגיד שזהו אילוץ שיש לקחת אותו בחשבון כיוון שאין דרך לבדוק את ההצלחה של בעלי ציון פסיכומטרי נמוך בתואר, כיוון שהם לא עושים תואר שניתן לבחון את הציונים שלהם.
כמו כן, לפעמים זו בחירה של החוקר.

 

מה ההשפעה של הקיצוץ על המתאם הקווי?

בביצוע קיצוץ תחום, לרוב עוצמת המתאם הקווי תיחלש לאחר ביצוע קיצוץ התחום.
במקרים מסוימים לפעמים אנחנו מורידים רק ערכים קיצוניים ועוצמת המתאם לא תיחלש.

לדוגמהללימודי רפואה מתקבלים מעט מאד סטודנטים, אם נניח אנחנו מקבלים רק מגובה של ציון פסיכומטרי 700, יהיה לנו הרבה יותר קשה לראות את הקשר הקווי כיוון שאין את הפריסה הרחבה יותר. אנחנו בעצם לא מגיעים לטווח המלא של האוכלוסייה.

 

 

ז. קיצוץ תחום והשלכותיו

    דוגמא 1- בסעיף א' נתונה דוגמא לקשר בין שעות לימוד לפני המבחן לציון במבחן.

הקשר נבדק כעת על קבוצה בעלת תחום צר יותר בשעות לימוד (מעל ל- 25) .

לפניכם הממצאים:

 

Correlations



 

 

Graph

 

 

 

 

 

 

 

 

דיאגרמת הפיזור המקורית (כמו בעמ' 11)    
דיאגרמת הפיזור לאחר הקיצוץ

 

השונות תקטן ולכן המתאם יקטן.

 

ח. השפעות טרנספורמציה לניארית על המתאם.


דוגמא 1- בסעיף א' נתונה דוגמא לקשר בין שעות לימוד לפני המבחן לציון במבחן.

ערכו טרנספורמציה ליניארית לשני המשתנים: העבירו אותם לציוני תקן

נוסחת ציוני התקן :


 

 

דוגמא לטרנספורמציה על 5 תצפיות ראשונות בקובץ:

Summarize


 

לפניכם הממצאים:

Correlations



 

  • מקרה אחר שבו הקיצוניים מחזקים קשר



 

 

 

 

 

 

 

ניתן לראות שנוצר קשר בגלל 4 ערכים קיצוניים.

 

אותם נתונים לאחר השמטת 4 תצפיות שגורמות למגמה



 

 

 

 

 

 

 

 

כאשר נשמיט את הערכים הקיצוניים נגלה כי בעצם אין קשר בין הערכים.

דוגמה לכך שעוצמת המתאם הקווי לא תשתנה כאשר נבצע טרנספורמציה ליניארית.

 

מודל רגרסיה ליניארית פשוטה- simple linear regression

המודל הוא מודל שבודק השפעה של משתנה ב"ת על משתנה תלוי.

Simple- הכוונה שיש משתנה ב"ת אחד בלבד.

 

ניתוח שונות

רגרסיה

1 משתנה בלתי תלוי איכותי

משתנה תלוי כמותי2 המשתנים כמותיים- נוכל להגיד שכל שינוי ביחידה אחת של משתנה, תוסיף יחידות למשתנה השני. נוכל לדבר על גודל השינוי.2כל סוג של קשריש חובה לקשר לינארי- ככל שX עולה Y עולה. חייבת להיות השפעה של סוג מסוים של קשר.

 

במודל זה אנו נחשב לדוגמה עבור על הסטודנטים עם ציון 550 בפסיכומטרי את תוחלת הציונים שלהם בתואר. כך נחשב לכל ציון מסוים את התוחלת ויוצר בעצם עקום רגרסיה.

רגרסיה הוא מונח כולל לא רק לקשרים ליניאריים, יש המון רגרסיות בצורות שונות. במסגרת הקורס נתייחס אך ורק לרגרסיה לינארית. במודל של רגרסיה

ננבא ממוצע ולא את ערך האמתי של הציון של בן אדם אחד. כל פעם ניקח X מסוים ונחשב תוחלת של Y לאותו X מסוים של קבוצה\קטגוריה. אם נעשה השוואה לניתוח שונות, נתייחס לכל ערך כאילו הוא קטגוריה אחת.

 

עקום רגרסיה-
קו באוכלוסייה העובר דרך התוחלות של Y המחושבות לכל ערך קבוע של Xi.

E(y/x=xi)=µyi

 

הEXPECTED של Y, כאשר X שווה לXi מסוים, שווה לתוחלת של Yi.

מתוך על עקומי הרגרסיה, נתייחס לעקום שייתן קו ישר, כלומר מסודרות על קו ישר ויתנו קשר לינארי.

 

כשאומרים שהתוחלות מהוות קו ישר, לא בהכרח התוחלות מהוות קשר מושלם. זאת כיוון התצפיות מפוזרות באיזשהו אופן, ולכן אין חובה שהתצפיות יהיו על הקו- אלא רק התוחלות שלהן. כלומר, לא מדובר על קשר מושלם בין התצפיות.

 

תנאים לקיום של עקום בעל רגרסיה לינארית

  1. קשר קווי בין X לY
  2. תנאים נוספים שנלמד בהמשך.

 

נוסחאות רגרסיה

 

אוכלוסייה מדגם
נוסחת הקו E(y/x=xi)=µyi=α+βxi

α=intercept (הקבוע)

β= slop (שיפוע)

 

שינוי ביחידה אחת של X, תגרום ל β יחידות שינוי בתוחלת של Y.
נוסחת הערך האמתיYi= α+βxi+εi

(µyi=α+βxi)

 

ברגרסיה אנו עובדים גם במודל קבוע, זה אומר שאם יש רשימה של X מסוימים שדגמתי, אנו מגבילים את הדגימה על הX הללו בלבד. כשמדובר במשתנה רציף, ישנה בעייתיות, ולכן לא נוכל להגביל את עצמנו ב15 תצפיות שדגמנו לדוגמה. אז מה עושים?

מניחים כי גם אם לא דגמנו ערך מסוים, כיוון שהקשר קווי, נוכל להסיק עליו מהערכים שכן דגמנו באותו הטווח. לא נוכל להסיק מחוץ לטווח.

 

כלומר, במודל רגרסיה אנו משתמשים במודל קבוע שמשמעו- ניתן יהיה להסיק מהמדגם לאוכלוסייה רק עבור ערכי X המצויים בתוך טווח הערכים שנדגם במדגם. מחוץ לטווח אין לנו ביטחון שהקשר הליניארי בין המשתנים מתקיים ולכן לא נוכל להסיק על ערכים מחוץ לטווח.

 

כשאנו מקבלים ענן של תצפיות, הקו האופטימלי של חישוב התוחלת יהיה זה שהסטיות מן הקו יהיו מינימליות. כלומר, את הקו במדגם אנו בונים לפי עיקרון שנקרא

עיקרון הריבועים הפחותים– l.s.e,
כלומר אנו מחפשים את הקו שריבועי הסטיות ממנו הן מינימליות (העלנו את הסטיות בריבוע בכדי להימנע מקיזוז בין הסטיות החיוביות לשליליות).

==> min

 


X- משתנה תלוי

Y- משתנה בלתי תלוי

X- משתנה בלתי תלוי

Y- משתנה תלוי  

 

דוגמה:

X͞=81.4

Y͞=75

= 17.88

= 11.71

r=0.192

 

=0.192*17.88/11.71=0.29

המשמעות של ביתא כובע היא שינוי ביחידה אחת של X (סטט 2), גורמת ל0.29 נקודות שינוי באומדן של סטטיסטיקה 3. (בהקשר לניבוי ציונים בסטט' 3 על פי ציונים בסטט' 2).

 

=75-0.29*81.4=51.15

 

=51.15+0.29xi

זהו האומדן של Y.

 

נקודת החיתוך של שני הישרים, היא שני הממוצעים. כלומר, האומדן של Y כאשר Xi שווה לx͞, הוא y͞.

 


 

לצילום של ד"ר גילה קינן

 

לצילום של מר תמיר פראוי

 



+ שבע = 10

תואר ראשון
תואר שני
מרצים