שם הכותב: תאריך: 12 מרץ 2014

סטטיסטיקה 3- שיעור 4

 

דוגמא 2 : השפעת המקצוע הנלמד (בתואר הראשון) על המשכורת ההתחלתית (באלפי ש"ח).

ניתן לראות רק במבט על הטבלה להלן, שאם יימצא הבדל הוא יהיה בין ARGRICULTURE וENGINEERING, כיוון שההבדל בין הממוצעים נראה מובהק בין מי שקיבל את הממוצע הכי נמוך לבין הממוצע הכי גבוה.

כיוון שההנחה של שוויון שונויות מתקיימת, ההבדלים בסטיית התקן הם הבדלים מקריים בלבד. בסופו של דבר נעדיף את MSW, כיוון שהוא יכלול את רוב התצפיות, אך כל אחד מהסטיות תקן הוא אומדן נכון לשונות באוכלוסייה, אך לא המדוייקים ביותר (MSW). סטיית התקן של הTOTAL אינו מהווה אומדן חסר הטייה לשונות כיוון שהוא מכיל בתוכו את SSB וכן את SSW, מדובר בסטיית תקן כללית (2.44). 2.44 בריבוע ייתן לנו את SST לחלק דרגות חופש.

Oneway


 

 

הטבלה להלן הוא מבחן לשוויון שונויות, המבחן עצמו לא נלמד ואנו בודקים אך ורק על פי הפלט. נקבע על פי הSIG, כאשר נשווה את כל האלפא לכל הSIG. ניתן לכתוב את ההנחה במילים. במקרה הזה אנו לא דוחים את H0, כיוון שSIG גדול מאלפא. מכאן שהשונויות שוות.


מבחן לבדיקת נורמאליות: בודקים לכל קבוצה וקבוצה האם מתקיימת התפלגות נורמאלית, רושמים 4 השערות שונות. אם אחד נופל, לא ניתן להמשיך, כלומר חובה שכל הקבוצות יתפלגו באופן נורמאלי.

 

Explore

COLLEGE


 

על פי הטבלה שלהלן ניתן לראות שאלפא גדול מSIG, ולכן בכל רמת מובהקות שאבחר אראה כי קיים הבדל מובהק בין התוחלות. לכן, אנו דוחים את H0 בכל מקרה. ניתן היה לבחון את ההשערה על ידי השוואת הרווחי סמך, וכן בדיקה האם קיימות חפיפות, אך לא מדובר בתחליף לבדיקה כיוון שרווח בר הסמך מבוסס על סטיית תקן שמבוססת על מספר תצפיות קטן יותר. במבחן שלהלן הF מבוסס על כלל התצפיות ועל האומדן המדוייק ביותר לשונות באוכלוסייה.


 

בבדיקה הבאה שנבצע נבדוק את ההבדלים בין הקבוצות, כלומר בין אלו קבוצות נמצא הבדל. המבחנים נבדלים זה מזה בכך שהם מגדירים את הטעות מסוג ראשון באופן שונה. בLSD הטעות מסוג ראשון תהייה גדולה יותר כיוון שהיא לא לוקחת בחשבון את מספר הקטגוריות, לכל מספר של קטגוריות תתבצע אותה בדיקה. לעומת זאת בTUKEY מקשים על הבדיקה תוך התחשבות במספר הקטגוריות, שכן ככל שיש יותר קטגוריות יש החמרה של הבדיקה וכן קשה יותר לדחות H0.

 

בפלט ישנם 3 בדיקות שניתן לבצע על מנת לבחון דחייה\ אי דחייה של H0:

  1. בדיקה האם קיימת כוכבית שמצביעה על הבדל מובהק- החיסרון הוא שמדובר אך ורק על רמת מובהקות של 5%
  2. עמודה של הSIG. עמודה זו אינה מגבילה אותנו בגודל האלפא. הכלל שנבדוק על פיו הוא האם SIG קטן מאלפא ועל פיו נחליט אם לדחות או לא לדחות H0.
  3. רווח בר סמך– ישנה הגבלה גם של 5%. נבדוק האם 0 נכלל בתוך הרווח או אינו נכלל. אם ה0 מוכל ברווח לא נדחה H0, כאשר 0 אינו מוכל ברווח אנו דוחים H0.

     

    נכתוב את ההשערות באופן הבא: ניקח כל פעם זוג של קטגוריות ונכתוב את ככל ההשערות היוצאות מן ההשוואות. (למשל ב4 קטגוריות יש לבצע 6 השערות). לאחר שבדקנו את כלל ההשערות המתבקשות, נבחן את המסקנות שלנו מכל השערה והשערה.

     

    כמו כן, כל מה שהצלחתי לדחות בTUKEY, בוודאות אני אדחה בLSD. את השאר יש לבחון ע"י חישוב\בחינת הפלט. במקרה הספציפי הזה נמצאו הבדלים מובהקים בין קבוצות 1 ל3, 1 ל4, 2 ל3 ו3 ל4.

     

     

    Post Hoc Tests


     

    הטבלה להלן מסדרת לנו את הקבוצות על פי הומוגניות זו של זו. בלוגיקה כשאנחנו יודעים שאם

    B=A, וB=C, אזי A=B. אך במקרה שלנו יכול להיות מצב בהשוואות זוגיות שזה לא המקרה, כיוון שאנחנו לא משתמשים באותם השונויות לבחינת ההבדל. יש להסתכל על כל זוג בנפרד ולפעמים הלוגיקה הזו לא תעבוד.

     

    ננסה לרשום את הטבלה שלהלן באופן עצמאי על פי ההשוואות שביצענו בפלט הקודם:

    העיקרון הוא שנסדר את 6 הקבוצות בתתי קבוצות, בכל תת קבוצה יהיו יחד קבוצות שאין ביניהן הבדלים מובהקים. כיוון שב1 ו2 אין הבדל מובהק, שתי הקבוצות יחד יצרו תת קבוצה אחת לפחות. לאחר מכן בוחנים האם יש עוד קבוצות שיכולות להיכנס תחת תת קטגוריה זו- כיוון שקיים הבדל מובהק בין 1 ל3 ו1 ל4, אין אפשרות שעוד קבוצה תהייה בתת קבוצה זו. ממשיכים ובוחנים האם יש עוד קבוצות שלא קיימים ביניהם הבדל מובהק באותו אופן.

    ניתן לראות במקרה הספציפי הנ"ל ש2 נמצא בתת קבוצה עם 1 וכן עם 4, ויש סתירה של הלוגיקה ש1 לא שווה ל4.

    א

    ב

    ג

    1

    2

    2

    3

    4

    Homogeneous Subsets


    הטבלה תהייה מסודרת באופן כזה שהממוצעים יהיו מסודרים מהקטן לגדול. הSIG חייב להיות גדול מאלפא בכל מקרה כיוון שבתתי קבוצה ברור לנו שאין הבדלים בין התוחלות לאחר שסידרנו את התתי קבוצות עם קטגוריות שאין ביניהם הבדל מובהק. עצם העובדה שסידרנו את הקטגוריות באופן הזה מונעת מהSIG להיות קטן מאלפא, כלומר לא ניתן בכל מקרה לדחות H0.

    בהערה a מצויין הN שעליו חישבו את הsig בפלט, לכן ניתן למצוא הבדלים בין הSIG בטבלאות.


    דוגמא לניתוח שונות עם שתי קטגוריות ולאחר מכן ניתוח מקביל באמצעות מבחן T למדגמים בלתי תלויים

    הקשר בין מגדר העובד למשכורת

    ניתוח שונות

    Oneway




    על פי הפלטים שלהל"ן ניתן לראות כי אנו דוחים H0 כיוון שSIG קטן מאלפא.

    F=7.698

    Sig=0.007

    מבחן T למדגמים בלתי תלויים

    המבחן הנ"ל מוכר מסטטיסטיקה 2.

    T-Test



    על פי הפלטים שלהל"ן נראה כי:

    T=2.774

    Sig=0.007

    יש קשר בין t לF. ניתן לראות שהSIG עבור שני המבחנים יצא אותו SIG. כמו כן, אנו נראה כי אם נעלה את T בריבוע, נראה כי נקבל את הF שקיבלנו במבחן שוויון השונויות.

    F(α)=t^2(α/2)

    אם אנו עושים מבחן ניתוח שונות עבור 2 קטגוריות, דרגות החופש במונה של F יהיה 1. אם נעלה בריבוע, כל הצד השלילי כביכול "יתקפל" לצד החיובי. במצב הזה אנו יכולים לחבר את F כביכול לT.

    רק כאשר יש דרגת חופש 1 במונה, אנו מוצאים קשר בין F לT וניתן לעבור בין ההתפלגויות.

    כאשר יש שתי קטגוריות ניתן לבצע מבחן שוויון שונויות וכן T רגיל. נקבל את אותה התוצאה.

    מקדם המתאם הליניארי

    דיאגרמת פיזור: הצגה גרפית של קשר בין שני משתנים.

    המטרה הראשונה בשרטוט דיאגרמת פיזור היא לזהות האם יש קשר בין שני המשתנים ומה הסוג שלו.

    Y- שכר

    X – שנות לימוד

    4000

    8

    12000

    11

    15000

    12

    17000

    15

    20000

    20


    על ידי דיאגרמת הפיזור ניתן למצוא האם קיים קשר חיובי חלקי, שלילי חלקי, אין קשר (כאשר קשר בין משתנה לקבוע הוא תמיד 0).

    המטרה השנייה של דיאגרמת הפיזור היא לזהות ערכים קיצוניים ובמידת הצורך להוציא אותם.

    לפעמים יש מקרים קיצוניים שגורמים לרמת הקשר לרדת/ לעלות. אנחנו נוריד אתם רק במקרה שהם מהווים פחות מ1% בכדי שלא יעוותו לנו את עוצמת הקשר. הרעיון הוא להוציא אותם לפני שנבצע את החישובים על מנת לקבל את התוצאה האמתית.


    מתאם פירסון

    +

    חשבון/תורה

    50

    +

    50

    הטבלה הזו מראה את הבסיס של קשר ליניארי

    +

    חשבון/תורה

    50

    +

    50

    +

    חשבון/תורה

    25

    25

    +

    25

    25

    אין קשר

    נוסחת ההגדרה של מתאם קווי: ממוצע של סכום מכפלות ציוני התקן


    השונות המשותפת היא מדד לקשר בין שני משתנים. כשיש קשר בין משתנים, יש משהו בשונות שהוא משותף. אנחנו יכולים לבטא קשר בין משתנים על ידי R של פירסון, וכן על ידי הצגת השונות המשותפת והצגת גודלה. אם השונות המשותפת שווה ל0, אין קשר בין שני המשתנים (COV).


    אם השונות המשותפת היא מלאה, כאמור הקשר בין המשתנים מלא- בעצם מדובר באותו משתנה ולכן הגודל של השונות המשותפת תהייה השונות של X\Y, כלומר אחת מהשונויות כיוון שמדובר באותה השונות בדיוק. (כאשר המתאם שווה ל1).

    נעדיף לבחון את הקשר על פי R של פירסון, כיוון בהCOV אנו יכולים לבחון האם יש קשר, אך אנו לא יודעים לתרגם את גודל הקשר למידת העוצמה (נקבל אותה במספרים ולא באחוזים) לעומת R של פירסון.

    מבחינת קריאת ערכים ומשמעותם R של פירסון:

    עד 0.3

    קשר חלש

    0.3-0.6

    בינוני

    0.6-1

    קשר גבוה

    טרנספורמציה ליניארית למתאם קווי

    1. אם נוסיף או נחסיר לX או לY או לשניהם ערך קבוע, מקדם המתאם הקווי לא ישתנה.(כיוון שהפער בין התצפית לממוצע לא ישתנה- שניהם יעלו באותו אופן. ההפרש נותר אותו דבר).
    2. בהכפלה או חילוק של X או של Y או של שניהם בערך קבוע, מקדם המתאם הקווי לא משתנה. (הפער יוכפל גם כן בערך הקבוע)

    כשאנחנו עושים טרנספורמציה ליניארית של ערך קבוע, עוצמת המתאם הקווי לא תשתנה.

    דיאגרמות פיזור ומתאמים

    קשר חיובי חזק

    Graph


    Correlations



    בטבלאות למעלה ניתן לראות בטבלה הראשונה סטטיסטיקה תיאורית- ממוצע, סטיית תקן וגודל המדגם. הטבלה השנייה נותנת סוג של מטריצה כאשר בכל תא 4 נתונים.

    1. השורה הראשונה- עוצמת הקשר הקווי (R)- 0.88
    2. השורה השנייה- SIG באמצעותו נקבע האם המתאם שקיבלנו במדגם מלמד כי יש קשר קווי מובהק באוכלוסייה.

      הסטטיסטי במבחן הנ"ל הוא R, כאשר הפרמטר הוא ρ (רו). המבחן הוא מבחן דו כיווני כאשר כלל ההכרעה הוא SIG<α. יש לשים לב שכתוב (2 tailed).

      השערות: H0: ρ=0

      H1: ρ≠0

    במבחן הספציפי הנ"ל אנו דוחים את H0.

    *ניתן לקבוע גם על פי הכוכבית על יד הנתונים, המשמעות היא שדוחים H0 ברמת מובהקות הכתובה מתחת לטבלה.

    3. השורה השלישית- המונה של הCOV. יש שני מונחים שונים לנתון זה- האחד מתייחס לסכום ריבועים (sum of squares) שמתייחס לאותו משתנה עם עצמו. השני מתייחס לX וY שונים (cross product), כלומר לשני משתנים שונים כאמור.

    4.השורה הרביעית- COV

    קשר שלילי חזק

    Graph


    Correlations



    ג. מתאמים בעוצמות שונות וכיצד זה מתבטא בדיאגרמת הפיזור- אם נתעלם מהטבלאות נראה כי אפשר להבחין בסוג הקשר של המשתנים.

    Graph






    ד. קשר שאינו ליניארי (פרבולי)



    ה. חוסר קשר



    ו. השפעות של ערכים קיצוניים

  • מקרה ראשון שבו הקיצוניים מקטינים קשר

     


     

     

     

     

     

     

    אותם נתונים לאחר השמטת 4 תצפיות שבניגוד למגמה


     

     

     

     

     

  • מקרה אחר שבו הקיצוניים מחזקים קשר


     

     

    אותם נתונים לאחר השמטת 4 תצפיות שגורמות למגמה

     



     

     

     

     


 

 

לצילום של ד"ר גילה קינן

 

לצילום של מר תומר פראוי

 



6 − = אחד

תואר ראשון
תואר שני
מרצים