שם הכותב: תאריך: 11 נובמבר 2013

ססטיסטיקה 2

ד"ר גילה קינן

11.11.13

 

אמידה ובדיקת השערות על תוחלת האוכלוסייה כאשר שונות האוכלוסייה אינה ידועה

 

בנושאים האחרונים- בבדיקת השערות ורווח בר סמך הנחנו כי יש לנו את שונות האוכלוסייה, אך בדרך כלל שונות האוכלוסייה לא ידועה. במקום שונות האוכלוסייה יהיה לנו את שונות המדגם כאשר המטרה היא שהמדגם יאמוד בצורה טובה את שונות האוכלוסייה.

לא ידועה


ידועה

במקום:


נקבל:


אם נגדיל את גודל מדגם – סטיית התקן על האוכלוסייה תישאר בהינה. כלומר רק הN ישתנה מכיוון שמדובר באינסוף מקרים והסטייה לא מושפעת מגודל המדגם.

כמו כן, סטיית התקן של המדגם כן ישתנה, כלומר הוא כן מושפע מגודל המדגם.

 

לכן- יקטן.

ולא ידוע מה יקרה עבור .

 

בדרך כלל כשיש מדגם קטן יש סיכוי שנקבל באופן מקרי שונות שהיא הרבה יותר גדולה מהמקורית או קטנה ממנה. לעומת זאת אם ניקח מדגם גדול, הסיכוי שתהייה סטייה מאד גדולה מהשונות האמיתית תהייה קטנה. כלומר ככל שגודל המדגם יותר קטן, תיאורטית נצפה להתפלגות יותר רחבה. עבור מדגם גדול יותר נצפה להתפלגות צרה יותר.

ההתפלגות שנעבוד אתה בנושא זה תיקרא- התפלגות t– כאשר גם וגם הN מושפעים מגודל המדגם.

ההתפלגות נותנת התפלגות שונה לכל דרגות חופש (על פי n-1). לכל מדגם היא תיתן התפלגות אחרת- כאשר עבור מדגם קטן היא תיתן התפלגות רחבה ועבור מדגם גדול יותר היא תיתן התפלגות צרה יותר ויותר (וגבוהה יותר) ככל שהמדגם הולך וגדל.

בדרך כלל מקובל להגיד שמעל גודל מדגם 120, ההתפלגות t תתלכד עם התפלגות z בגובה שלהן.

עבור התפלגות z שונות האוכלוסייה כן ידועה, לכן מעל גודל מדגם 120, השונות שנקבל במדגם היא "לכאורה" שונות האוכלוסייה. לא משנה אם נגדיל את המדגם מעל 120, הקביעה של שונות האוכלוסייה תישאר כשונות של המדגם.

 

לסיכום: התפלגות t מתפלגת נורמאלית וחלים עליה על הכללים של התפלגות נורמאלית (סימטרית, ממוצע חציון ושכיח באותה נקודה, אסימפטומטית לציר הX וכו'). כמו כן, t היא משפחה של התפלגויות שתלויה בגודל מדגם\דרגות חופש (n-1). ככל שגודל המדגם גדל, התפלגות t נעשית יותר גבוהה ויותר צרה. בגודל מדגם 120 (או גדול ממנו), התפלגות t מתלכדת עם התפלגות z.

 

ליד כל t שנרשום נצטרך לרשום את גודל המדגם\דרגות החופש ולכן יירשם:

df= דרגות חופש ולכן = n-1. לכן אם: גודל המדגם הוא 73 (n=73).

 

לוח t: עובד על פי הנחות כאשר לא נרשמו ככל ההסתברויות אלא רק 6 (כלל ההסתברויות דורשות 120 עמודים כאשר הלוח הוא עמוד 1 בלבד). כמו כן לא כל דרגות החופש נרשמו ויש קפיצה ביניהם, לכן הלוח הוא מוגבל ואנחנו צריכים להסתדר עם מה שיש בו.

 

ההבדל בין t לz- t יותר רחבה לעומת z שיותר צרה.

לכן בt יותר קשה לדחות את h0 מכיוון שהוא פחות מדויק והוא דורש הוכחה יותר "כבדה" בכדי לדחות את h0.

 

לוח התפלגות t:

ציר אנכי- רמת דרגת חופש

ציר אופקי- הסתברויות

בתוך הטבלה- ערכי t

 

(הפוך מלוח התפלגות z)

 

  • דוגמה:
  • חייבים לעבוד על פי ההסתברויות שמוצגות בלוח t, לא ניתן לעגל או לבחור הסתברות קרובה.
  • ניתן לקחת ערכים קרובים בדרגות החופש ובערכי הt.
  • מעל דרגת חופש של 120 נשתמש בטבלת Z
  • בכדי לחשב נשתמש בטבלת Z מכיוון שעבור t אין לנו את כל הערכים.
  • נבדיל בין שאלות בהתפלגות Z לt על ידי הנתונים- אם האוכלוסייה לא ידועה מדובר בt. זהו הנתון היחיד שמבדיל בין השאלות.

 

בדיקת השערות

המהות היא אותה המהות כמו בלוח Z.

 

דוגמה: כיפה אדומה הגיעה לבית סבתא וראתה מולה את הזאב המחופש לסבתא ומיד שאלה- סבתא למה יש לך שיניים ארוכות כל כך? הזאב המחופש ענה בהתרגשות ששיניו אינן יוצאות דופן באורכן. כדי להוכיח זאת מדד הזאב 16 שיניים שבחר באופן מקרי והראה לכיפה אדומה שממוצע אורכן הינו 29.5 מילימטר עם סטיית תקן 8 מילימטר. ידוע שאורך שן של סבתא באגדות ילדים מתפלג נורמאלית עם תוחלת 26.6 מילימטר.

 

  1. האם צודקת כיפה אדומה בטענתה שלזאב שיניים ארוכות יחסית לשיני סבתא? בדוק ברמת מובהקות α=0.05. (יוצאים מנקודת הנחה שבפה של הזאב יש אינסוף שיניים).
  2. חשב אתp.value (α מינימלית) לדחיית H0. חשב חסמים מתאימים.
  3. בהנחה שהנתונים האחרים לא משתנים, כיפה אדומה טוענת שהמסקנה הייתה משתנה לחלוטין אם התוצאות לעיל היו מבוססות על דגימה מקרית של 30 שיניים. על מה מתבססת טענתה? הסבר תשובתך.

 

תשובות:

סטיית תקן 8 התקבלה על מדגם של 16 שיניים ולכן מדובר בהתפלגות t (תוצאה של מדגם). אם היה תוצאה של אוכלוסייה היה נרשם- ידוע שסטיית התקן היא 8 מילימטר.

 

 

הנחות:

  1. דגימה מקרית של שיניים
  2. אורכי השיניים מתפלגים נורמאלית (נתון).

*עבור התפלגות t, משפט הגבול המרכזי לא מתקיים. לכן יש 2 אופציות-

א. נאמר שידוע שההתפלגות היא נורמאלית

ב. אם לא נאמר שההתפלגות היא נורמאלית יש התחייבות לבדוק את ההתפלגות (ללא קשר לגודל המדגם- גם אם גדול מ120). נעשה זאת על ידי מבחן סטטיסטי שנלמד בהמשך.

 

השערות:

H0: ≤26.6µ

H1: 26.6<µ

 

נתונים:



N=16

α=0.05

 

  • לא עושים את שלבים 4-5!

     

אזורי דחייה וקבלה:

אזור דחייה:



 

אזור קבלה:


 

חישוב סטטיסטי:

 


 

מסקנה:

1.45<1.753 ולכן אין סיבה מספקת לדחות את H0 ברמת מובהקות α=0.05. כלומר כיפה אדומה לא צודקת והשיניים של הזאב לא ארוכות יחסית לשיני סבתא.

 

  1. נבדוק היכן 1.45 נמצא בטבלת התפלגות t. מכיוון שאין תוצאות מדויקות נבדוק בין אילו הסתברויות התוצאה נמצאת ונכתוב: 0.05<p.value<0.1. כלומר בין אלו חסמים היא נמצאת.

 

* אם השאלה הייתה השערה דו צדדית נכפיל את ההסתברות (את שני הצדדים).

* יש מקרים בהם יש "חסם" אחד (כאשר התוצאה נופלת בקצוות)- ולכן נכתוב רק גבול אחד.

 

  1. השאלה שנשאלת היא לגבי גודל המדגם והשפעתו על המסקנה הסטטיסטית ללא שינוי של שאר הנתונים. כאשר נגדיל את המדגם הסיכוי לדחות את השערת הh0 יהיה יותר גדול, זאת מכיוון שדרגות החופש יגדלו וההתפלגות תהייה יותר צרה (הערך הקריטי יהיה קטן יותר). לכן יכול להיות שכיפה אדומה צודקת והמסקנה הייתה משתנה.

 

* הגדלת גודל המדגם, בהנחה שהגורמים האחרים לא ישתנו ערכו של הסטטיסטי t גדל, הערך הקריטי של t קטן ולכן הסיכויים לדחות את H0 יותר גדולים.

*בהנחה ששאר הנתונים לא נשארים קבועים וגודל המדגם גדל- סטיית התקן הייתה משתנה (לא ידוע באיזה אופן) וכמו כן הממוצע היה משתנה (גם לא ידוע באיזה אופן), ולכן לא ידוע מה היה קורה לערך של הt. אם לא הייתה נתונה ההנחה שהגורמים האחרים לא ישתנו לא היינו יכולים לדעת אם יש דבר מה בהשערתה של כיפה אדומה.

 

רווח בר סמך

במקום Z נכתוב t ובמקום σ נכתוב .

 

 

לצילום השיעור



5 − שתיים =

תואר ראשון
תואר שני
מרצים