שם הכותב: תאריך: 02 דצמבר 2013

ססטיסטיקה 2

ד"ר גילה קינן

2.12.13

 

אמידה ובדיקת השערות על הפרש תוחלות ממדגמים בלתי תלויים כאשר שונויות האוכלוסיות אינן ידועות

 

השונות של האוכלוסייה לא ידועה ולכן השונות במדגם יהיה אומד חסר הטיה של שונות האוכלוסייה.


 

במבחן שנלמד היום נצא מנקודת הנחה שהשונויות של X וY שוות (את האופציות האחרות נלמד בהמשך)-

 

כמו שאמרנו שונות המדגם היא האומד לשונות האוכלוסייה (פעם אחת עבור מדגם X ופעם אחת עבור מדגם Y). מכיוון ששני השונויות אומדים את אותה השונות באוכלוסייה , נשקלל אותם יחד- Nx+Ny. האומד החדש ייקרא (שונות משוקללת) והוא יאמוד את השונויות- .

 


 

*יש לשים לב כי כל השונויות הן אומדים חסרי הטיה (בעלי כובע- משקפים את מה שקורה באוכלוסייה, מחולקים בדרגות החופש הנכונות ושואפים לשונות באוכלוסייה).

 

השונות:

 

רווח בר סמך

 

 

בנה רווח בר סמך ברמת ביטחון של 98% להפרש התוחלות.

במדגם של 51 גברים שנדגם באופן מקרי התקבל ממוצע 8 דקות איחור וסטיית תקן 2 דקות איחור. במדגם של 32 נשים שנדגם באופן מקרי התקבל ממוצע 9 דקות איחור וסטיית תקן 1 דקות איחור.

 

הנחות:

  1. דגימה מקרית של גברים ושל נשים.
  2. מדגמים ב"ת.
  3. אם הערכים של כל אחת מהקבוצות יתפלגו נורמלית, הממוצעים יתפלגו נורמלית. כמו כן אם הממוצעים יתפלגו נורמלית אז ההפרשים יתפלגו נורמלית.

    דקות האיחור מתפלגות נורמלית בקרב הגברים ובקרב הנשים.

  4. שונויות דקות האיחור שוות בקרב הגברים והנשים באוכלוסייה.

 

לפני שנגיע לרווח בר סמך- צריך לבצע מבחן שיוכיח את סעיף 3 וכן את סעיף 4. כלומר 2 מבחנים מקדימים בכדי להמשיך לחשב את רווח בר סמך.

 

 

חישוב השונות המשוקללת:

 


 


 

חישוב רווח בר סמך:

 

 


 

מסקנה:

מתוך אינסוף דגימות חוזרות של מדגמי גברים בגדול 51 ומדגמי נשים בגודל 32, הפרש תוחלות דקות האיחור יימצא ברווח המקרי שנע בין -1.9 ל0.9 ברמת ביטחון של 98%.

מכיוון שה0 נמצא ברווח המקרי- המשמעות היא שהגברים והנשים מאחרים בהתאם, כלומר לא נדחה את H0.

 

בדיקות השערות

 

במדגם מקרי של 36 ימים בחנות א', נמכרו 432 פריטים והתקבלה סטיית תקן 10 פריטים. בחנות ב' נדגמו 30 ימים באופן מקרי ונמכרו 210 פריטים והתקבלה סטיית תקן 11 פריטים. האם ניתן לומר שבחנות א' מכרו יותר מאשר בחנות ב'? בדוק את הטענה ברמת מובהקות α=0.05, 0.01.

מהי הα המינימלית לבדיקת ההשערה? הצג חסמים מתאימים.

 

תחילה נגדיר מהו X ומהו Y.

X= חנות א'

Y= חנות ב'

 

הנחות:

  1. דגימה מקרית של ימים בחנות א' ובחנות ב'.
  2. מדגמים ב"ת.
  3. מכירות מתפלגות נורמלית בחנות א' ובחנות ב'.
  4. שוניות של המכירות שוות באוכלוסייה.

 

 

השערות:

 

H0: x-µy≤0µ

H0: x-µy>0µ

 

נתונים:

ממוצע X: 432:36=12

ממוצע y: 210:20=7

סטיית תקן X= 10

סטיית תקן Y= 11

Nx=36

Ny=30

α=0.05.01

 

*בT אין תיאור התפלגות הדגימה וכן התפלגות הדגימה תחת H0- מדלגים על שלבים אלו.

 

אזורי דחייה וקבלה:

 

אזור דחייה: t64>1.671

אזור קבלה: t64≤1.671

 

חישוב סטטיסטי:

 


 

 

 


 

מסקנה:

1.93>1.671 ולכן יש סיבה לדחות את H0 ברמת מובהקות α=0.05, ולכן יש עדות לכך שחנות א' מוכרת יותר מחנות ב'.

 

עבור α=0.01 באותו אופן של חישוב: 1.93<2.39 ולכן אין סיבה מספקת לדחות את H0 ברמת מובהקות α=0.01, כלומר חנות א' לא מכירה יותר מחנות ב'.

 

כשאנחנו נשאלים על α מינימלית, אנחנו צריכים קודם כל לבדוק באיזו השערה מדובר- במקרה שלנו מדובר בהשערה חד כיוונית. לאחר מכן נבחן באילו דרגות חופש אנחנו נמצאים- במקרה שלנו- 64.

בהתפלגות t, אנחנו נלך לדרגת חופש 60 ונחפש איפה נמצא 1.93- בין אלו ערכים.

במקרה שלנו: 0.025<p.value<0.05.

ניתן לראות כי באמת עבור 1% לא דחינו את H0, וכן דחינו עבור 5%. יש לשים לב להיגיון של התוצאה שקיבלנו.

 

 

אמידה ובדיקת השערות על מדגמים מזווגים (תלויים)

 

מדגמים מזווגים זהו סוג של תלות בין המדגמים- מזווג- מהמילה זוג, כלומר זוגות של מדגמים. מבחינת דגימה, יש דגימה מקרית של מדגם 1 כאשר המדגם השני תלוי בו (לא מקרי). ניתן להגיד שיש דגימה של "זוגות". במצב קלאסי של מדגמים מזווגים זהו מצב של "לפני" ו"אחרי", זהו מצב שבו יש דגימה לפני ואז דגימה של אחרי- למשל בחינה של ידע בסטטיסטיקה לפני קורס ולאחר קורס. דגימה פעמיים של אותו האדם- 2 תצפיות לכל אדם.

 

ישנם בעיות עם המבחן הנ"ל ומערך המחקר- מכיוון שעבר זמן מאז דגימה אחת לשנייה יכולים לקרות כל מיני דברים- למשל אם נדבר על הדוגמה הקודמת יכול להיות שהיו סטודנטים שלקחו שיעורים פרטיים ולכן התוצאה "אחרי" לא תהייה תוצאה נקייה. כמו כן, יכול להיות שחלק מהאנשים לא נשארו עד סוף הקורס ולכן ייווצר מצב שיש תוצאה "לפני" ואין תוצאה של "אחרי", מכיוון שאנו חייבים מדגמים של "זוגות"- תוצאת ה"לפני" לא שווה שום דבר למחקר. כמו כן- השאלה למה הסטודנטים פרשו היא שאלה שעולה- האם הסטודנטים שפרשו הם בעלי מכנה משותף? אם החלשים פרשו הייצוג של המדגם נפגע- לכן כולו והתוצאות נפגעו- לא ידוע אם המדגם הוא מדגם מייצג.

 

ניסו לפתור את הבעיה הזאת על ידי "זיווג מלאכותי". לדוגמה חולי אסתמה- המחלה מחריפה בתקופות מסוימות של השנה. אם חוקר רוצה לבדוק תרופה של אסתמה הוא יבדוק את החולים לפני נטילת התרופה ואחריה. אך מכיוון שמדובר בתקופות- יכול להיות שהתוצאות יתפרשו כהשפעה של התרופה כשהיא בעצם תוצאה של העונה. לכן יש לקחת קבוצת ניסוי וקבוצת ביקורת- כאשר קבוצת הביקורת נבנית בהתאם לקבוצת הניסוי. מתאימים לכל אדם בקבוצת הניסוי אדם שמתאים לו מבחינת רקע המחלה וכל דבר הקשור לכך בקבוצת הביקורת. לקבוצת הניסוי נותנים את התרופה כאשר קבוצת הביקורת מקבלת תרופת דמה. יש לבדוק את קבוצת הניסוי וקבוצת הביקורת לפני ואחרי.

 

הקבוצות אמורות להימצא דומות עבור מצב ה"לפני". עבור בחינת מצב ה"אחרי" יש לבדוק את שני הקבוצות כאשר אם יש שיפור בשני הקבוצות אנחנו נדע כי התרופה לא משפיעה וכי השיפור נעשה בגלל סיבות אחרות. בנוסף ניתן לבדוק שלל מבחנים כאלו על 2 המצבים הקיימים עבור 2 הקבוצות בכדי להסיק מסקנות לגבי התרופה- השפעה פסיכולוגית, אי השפעה, השפעה חיובית וכד'.

 

השיטה הזו פותרת את בעיית הזמן שעובר בין שני המבחנים, אך בכל זאת קיימת הבעיה שכמה שנתאמץ לא נוכל לבצע זיווגים מושלמים בין קבוצת הביקורת לניסוי, ולא נדע כמה אנו סוטים מהזיווג המושלם.

נשאלת השאלה היא אם מערך המחקר הזה כל כך בעייתי למה מבצעים אותו?

הסיבה היא הנושא של השונות. מכיוון שהמדגם הוא על אותו אדם- יש קשר בין מדגם אחד לשני- לכן קיים "מתאם"=רו R (כאשר בב"ת אמרנו כי המתאם שווה ל0).

 

היתרון של המבחן המזווג הוא שהשונות שנקבל תהייה יותר קטנה והסיכויים לדחות את H0 יהיו יותר טובים. היתרון יהיה קריטי כאשר המדגם שלקחתי יהיה קטן- מכיוון שמצב כזה יותר קשה לדחות את H0, ואז כדאי לו לבצע הקטנה של השונות בכדי להגדיל את הסיכוי שלו לדחות.

 

יכול לקרות מצב שR יהיה שלילי- המינוס יהפוך לפלוס והשונות תהייה יותר גדולה- כלומר המדגם המזווג לא ישרת את המטרה של הקטנת השונות. לא ניתן לדעת מראש האם המתאם יהיה חיובי או שלילי, אך ברוב המקרים הוא יהיה חיובי וכן ישרת את המטרה הזו.

 

קשר חיובי: ככל שX עולה Y עולה.

קשר שלילי: ככל שX עולה Y יורד.

מדובר על הקשר בין המדגמים, כמו שאמרנו ברוב המקרים הR יהיה חיובי.

 

יתרונות וחסרונות- סיכום

היתרון הבולט ביותר של מערך המחקר של מדגמים מזווגים הוא בדרך כלל, טעות תקן קטנה יותר מאשר במערך המחקר של מדגמים ב"ת. כלומר, מתקבל אומדן יעיל יותר המאפשר דיוק רב יותר, מגדיל את עוצמת המבחן ומקטין את ההסתברויות לטעויות. טעות התקן הקטנה נחוצה במיוחד כאשר גודל המדגם קטן. יחד עם זאת, קיימים מספר חסרונות לשימוש במדגמים המזווגים:

  1. זיווג מלאכותי: איננו בטוחים שהזיווג הוא מלא. ייתכן שפספסנו, וההבדלים לא נובעים בהכרח מהתופעה הנחקרת, אלא מהתערבות משתנה אחר עליו לא פקחנו במערך הניסוי.
  2. לפני ואחרי:
    1. בחלק מהמחקרים ישנו נפל לאחר הבדיקה הראשונה, אזי המדגם שנותר איננו מקרי ו\או מייצג ויכולה להיות בו הטיה.
    2. הבדיקה כצמה, בשלב הראשון, גרמה לשינוי. כלומר, ישנה השפעה של המניפולציה על השלב השני.
    3. בפער הזמן החולף בין הבדיקה הראשונה לבדיקה השנייה עלולים להתרחש אירועים, אשר לא קשורים למחקר, בעלי השפעה על תוצאות הבדיקה השנייה.

 

היתרונות והחסרונות של מערך המחקר המזווג הפוכים למערך המחקר של מדגמים ב"ת. כלומר, מערך זה מתאים יותר למדגמים גדולים שם מושגת הקטנת טעות התקן באמצעות גודל המדגם הגדול. יחד עם זאת, הקשיים בבניית מערך המחקר המזווג אינם קיימים במערך המחקר של מדגמים ב"ת.

 

לצילום השיעור

 

 

 

 

 

 

 

 

 

 



תשע − = 3

תואר ראשון
תואר שני
מרצים