שם הכותב: תאריך: 22 אוקטובר 2013

ססטיסטיקה 2

ד"ר גילה קינן

21.10.13

הסקה סטטיסטית

יש 2 חטיבות מרכזיות בחטיבה הסטטיסטית:

  1. אמידה- מצב שבו הפרמטר (התוצאה של האוכלוסייה) לא ידוע, ואנחנו רוצים מתוך התוצאות של המדגם לאמוד אותו. כלומר, לאמוד את הפרמטר הלא ידוע.
  2. בדיקת השערות- כאשר הפרמטר ידוע , ונבדוק האם כתוצאה משינוי באוכלוסייה יחול שינוי על הפרמטר.

 

אמידה

אנחנו רוצים לאמוד פרמטר לא ידוע ולשם כך אנחנו צריכים אומד. האומד הוא בעצם התוצאה שקיבלתי במדגם ובעזרתו נשליך על האוכלוסייה כולה.

לאומד צריכות להיות 2 תכונות בכדי שייחשב לאומד טוב:

  1. חסר הטיה- כלומר שאם אני אקח אינסוף מדגמים בגדול n, ואני אחשב כל פעם את הממוצע, הממוצע של כלל הממוצעים ייתן לי את אנחנו נשיג אומד חסר הטיה על ידי דגימה מקרית, כלומר המדגם חייב להיות מקרי ומייצג. ללא דגימה מקרית, לא נוכל להגיע להסקה סטטיסטית (תכונה הכרחית).
  2. יעיל- אומד שיש לו שונות קטנה, כלומר שהפיזור הוא פיזור קטן. כשאנחנו מדברים על אומד יעיל אנחנו בעצם מדברים על גודל המדגם- גדול ככל האפשר- ככל שהמדגם גדול יותר כך הפיזור יהיה קטן יותר, וכך האומד יהיה יותר יעיל.

    גדול המדגם לא תמיד תלוי בחוקר, לפעמים יש מחסור במשאבים והוא נאלץ לקחת מדגם קטן יותר. אבל אם החוקר לוקח מדגם יותר קטן, הוא משלם מחיר בדיוק המדגם מכיוון שיש לו אומד פחות יעיל, ואם הוא פחות יעיל הוא פחות מדויק. לכן השאיפה של החוקר היא לקחת מדגם גדול ככל האפשר, כך יש יותר התקרבות לאוכלוסייה (לתוחלת) והסיכוי לטעות קטן יותר. תכונה זו היא רצויה. (מותר לקחת מדגם קטן אך יש סיכוי גדול יותר לטעות).

     


     

    לסיכום: בכדי לבצע אמידה אנחנו צריכים אומד חסר הטיה בהכרח, ורצוי שהמדגם יהיה גדול. (במידה וניקח מדגם קטן- נשלם מחיר בדיוק)

     

    החוקר צריך להחליט מה רמת הביטחון הוא מעוניין בה, כלומר כמה הוא רוצה להיות בטוח בתוצאה שהוא נותן. אם ככה החוקר קובע רמת ביטחון. כלומר יש איזשהו סיכון שהתוחלת לא תימצא בתוך הרווח, לכן יש משלים לרמת הביטחון והוא- רמת הסיכון.

     

    רמת הסיכון– α (מסומנת באות אלפא)

    רמת הביטחון

     

    רמת הביטחון ורמת הסיכון משלימות אחת את השנייה ל1.

    המקובל הוא להגיע לרמת ביטחון של לפחות 95%, מכיוון שאם רמת הביטחון שלי תהייה פחותה מזו, יש סיכון גבוה שאני לא נמצאת בתוך הרווח.

     

    הסיכון נמצא בקצוות והוא סימטרי. כלומר 2%-2.5% לכל צד.


     


    מכיוון שהחוקר קובע מראש מהי רמת הביטחון, האלפא ידועה לי מראש. כמו כן ממוצע המדגם, גודל המדגם וסטיית התקן ידועים לי. כך נשאר לי נעלם אחד שהוא הµ שאותו אני רוצה למצוא.

    בכדי לגלות אותו נעביר אגפים ונחלץ את הµ.

     

    רווח בר סמך (ר.ב.ס)

     

    סמך- מהמילה לסמוך, כלומר רווח שניתן לסמוך עליו. כמה? בהתאם לרמת הביטחון שקבענו.

     

    קיבלנו את הממוצע +- הסטייה- ולכן = גודל הסטייה.

    פעמיים הסטייה= אורך הרווח

    כלומר אם נחבר את שתי הסטיות יחד, נקבל את אורך הרווח (הטווח שבו יימצא µ).

     


    מסקנה: מתוך אינסוף בדיקות חוזרות של מדגמים בגודל 100, תוחלת האוכלוסייה תמצא ברווח המקרי שנע בין 14.02 ל15.98 ברמת ביטחון של 95%.

     

    אם היינו לוקחים אינסוף מדגמים בגודל n מסוים, והיינו בונים אינסוף רווחי סמך, אחוז הביטחון שבחרנו (95%) מהרווחים היו מכילים בוודאות את µ והיתר ( 5%) בוודאות לא היו מכילים את µ.

    לא ניתן להסיק לגבי הרווח סמך שבנינו באופן ספציפי אם מדובר ב95% אחוז שכן מכילים את µ או לא מכילים אותו.

     

    אם אנחנו רוצים ביטחון גבוה יותר- אנחנו נשלם באורך רווח גדול יותר.

    נשתמש באותה הדוגמה כאשר ה1-α=0.99 α=0.01

     


    בעקבות זה שהעלינו את רמת הביטחון- אורך הרווח יותר גדול והמשמעות היא שאיבדנו מהדיוק של התוצאה.

     

    איך נקבל רמת בטחון גבוהה וגם אורך רווח קטן יותר?

    נגדיל את גודל המדגם (n). הבעייתיות של שיטה זו היא בדרך כלל משאבים, כספים, זמן וכד'. לכן לא תמיד החוקר יכול להגדיל את גודל המדגם.

     

    מסקנות:

  • מכיוון שהעלינו את רמת הביטחון מ95% ל99%, אורך הרווח גדל. כעת הµ יכול להימצא ברמת ביטחון גבוהה יותר ברווח- משום שאורך הרווח גדול יותר.
  • ככל שמדגם יותר גדול, הדיוק גדול יותר והסטייה קטנה יותר.

     

    מכיוון שמגדילים את ה-n, הסטייה קטנה.

 

מהו גדול המדגם הדרוש על מנת לאמוד את תוחלת האוכלוסייה עבור סטייה של 0.1, כאשר ידוע שסטיית התקן היא 2.5 ורמת הביטחון היא 95%?

 


  • לפעמים כשנחשב המספר לא ייצא שלם, לכן תמיד נעגל כלפי מעלה (גם אם מדובר ב2400.001, מכיוון שאם נעגל כלפי מטה לא נעמוד בתנאי).

     

יכול להיות שהחוקר לא יוכל לדגום מבחינה מעשית 2401 נדגמים ולכן עליו להתפשר:

  1. בסטייה- הגדלת הסטייה, המשמעות שאורך הרווח יהיה גדול יותר ולכן הדיוק יהיה קטן יותר.
  2. רמת הביטחון- הקטנת רמת הביטחון (בעייתי מכיוון שיש צורך ב95% רמת ביטחון לפחות).

 

אם החוקר חייב להקטין את גודל המדגם הוא חייב להתפשר באחד מהגורמים או שניהם.

 

בדיקת השערות

ה µ קבוע, כאשר בודקים האם חל שינוי בעקבות ניסוי שביצעתי.

המכוניות נוסעות 10 ק"מ לליטר.

יצרן ייצר מכוניות שעל פיו נוסעות 13 ק"מ לליטר.

 

בניסוי שערך היצרן התברר כי המנוע באמת נוסע בממוצע 13 ק"מ לליטר.

האם מדובר בכך שהמנוע יותר טוב? איך נוכיח זאת?

 


 

במקרה וה=13µ קרוב לתוחלת 10, יכול להיות שהמדגם לא בהכרח מוכיח שהמנוע יותר טוב, מכיוון שיש סיכוי גבוה יותר שהתוצאה תצא 13 כאשר התוחלת היא 10. לכן המנוע עדיין שייך לתחום המנועים בעלי תוחלת 10. בפעם הבאה שהיצרן יבדוק יכול להיות שהתוצאה תהייה 9.

 

אפשרות נוספת היא ש=13µ יהיה רחוק מהתוחלת 10, אבל גם כאן נוכל להגיד שההסתברות אמנם נמוכה להגיע לתוחלת כזו, אבל אפשרית.

 

אנחנו נבחן את התשובה על פי ההסתברויות-אם מדובר בהסתברות גבוהה להגיע לתוחלת 13- נניח שמדובר באותו מנוע בעל אותן היכולות. אם מדובר בהסתברות נמוכה, נניח שמדובר במנוע חדיש.

 

מה נחשב הסתברות נמוכה ומה נחשב הסתברות גבוהה?

יש לקבוע גבול כאשר כל תוצאה שתצא בשטח שמחוץ לגבול תהייה בעצם הוכחה שמדובר במשהו אחר שלא קשור לתוחלת שמדדנו על פיה. בעוד תוצאה שתצא בתוך הגבול תהייה לא רלוונטית.

 

נסמן את השטח באות α:

 

α- רמת מובהקות-תוצאה שהיא שונה מהותית ממה שהיה קודם (כלומר מדובר במנוע חדש ולא ישן- נפלה בוודאות בשטח הדחייה)

α- ההסתברות בשטח הדחייה– תוצאה שתיפול בשטח הזה דוחה את כל מה שהיה קודם. (את המנוע הישן לדוגמה). כל הסתברות שתיפול בשטח הקבלה (אי דחייה)– לא דוחה את מה שהיה קודם. (לא הצליח להוכיח טענה, לדוגמה שהמנוע יותר טוב)


α-הסתברות לטעות מסוג 1- מכיוון שגם תוצאות נמוכות יכולות להתרחש, יכול להיות שהסקנו מסקנה שגוייה. ההסתברות לטעות היא גדולה של α שתהייה נמוכה. (אם נפלתי בתוך שטח הדחייה, הסקתי מסקנה שיש לי מנוע חדש).

 

סוגי השערות

  1. = השערת מצב העולם- מה שהיה קיים בעולם לפני שהחוקר הגיע.
  2. = השערת החוקר\השערה אלטרנטיבית- טענת החוקר.

 

המטרה של החוקר היא לדחות את מצב העולם.

כמו כן, השאיפה היא ששטח הדחייה יהיה כמה שיותר גדול, כיוון שיש לו יותר סיכוי לדחות את מצב העולם. אך אם שטח הדחייה גדול יותר ההסתברות לטעות תהייה גדולה יותר.

אם החוקר יקטין את ההסתברות לטעות, שטח הדחייה יקטן גם הוא. (מדובר באותו השטח).

 

המקובל הוא לקחת α שלא עולה על 5%, כלומר שהסיכוי לטעות לא תהייה מעל 5%.

 

לצילום השיעור




שמונה + 1 =

תואר ראשון
תואר שני
מרצים