שם הכותב: תאריך: 13 נובמבר 2013

בס"ד, יום חמישי ד' בכסלו תשע"ד, 7.11.13

שיעור רביעי

שונות, סטיית תקן: מדדי פיזור שמחושבים על סמך סטיית התצפיות מממוצע הנתונים.

שונות: ממוצע ריבועי הסטיות מהממוצע (הנוסחה שלהלן רלבנטית למשתנה שבו הערכים שונים זה מזה). השונות נמדדת ביחידות המשתנה בריבוע (למשל, השונות של הגובה נמדדת ביחידות של מטרים2).


 

סטיית תקן: שורש חיובי של השונות . סטיית התקן הינה מדד המבטא את הפיזור ביחידות של המשתנה ונותן הערכה ל"סטייה הממוצעת" של התצפיות מממוצע הסדרה.


סטיית תקן מבטאת עד כמה הממוצע לא מייצג את התצפיות. ככל שמדד הפיזור גדול יותר, כך הממוצע פחות מייצג.

 

נסתכל על משכורות של שישה אנשים:

3000,3000,5000,7000,10000,50000.

*השכיח: 3000.
*ערכו של החציון יהיה ערכה של התצפית ה-3.5, כלומר החציון יהיה הממוצע של התצפית השלישית והרביעית = 6,000.
*הממוצע יהיה 13,000. גדול בהרבה מהחציון, מכיוון שה-50,000 משפיע מאוד על הממוצע, בעוד שעל החציון זה משפיע בדיוק כמו כל מספר אחר שגבוה מ-7,000.
*שונות: נחשב את הסכום של (כל אחד מהמופעים פחות הממוצע) בריבוע, ואת התוצאה נחלק בחמש. התוצאה תהיה 335.6K ₪ בריבוע.
*סטיית התקן: נעשה שורש לשונות, נקבל 18.319K ₪.

במילים אחרות: הממוצע של השונות של כל אחד מהמופעים מהממוצע הוא 18,319 ₪.

 

 

 

 

 

סטיית התקן של המשתנה הכמותי מתוך טבלת שכיחויות:


 

כלומר, כדי לחשב את סטיית התקן או את השונות מתוך טבלת שכיחויות, אני צריך להתייחס לכך שיש ערכים שנצפו כמה פעמים, ועלי להכפיל את הערך במספר התצפיות שיש לו בטבלה.

 

 

טרנספורמציה ליניארית לנתונים והשפעתה על המדדים

במונח טרנספורמציה ליניארית הכוונה לשינוי ליניארי (הוספה, החסרה כפל וחילוק בקבוע) שעורכים לסדרת נתונים (ערכי המשתנה). מהמשתנה X יוצרים משתנה חדש X' לפי פונקציה ליניארית: a+b*X= X' (כאשר a הוא כאשר המקדם הוא חיבור או חיסור, b הוא כאשר המקדם הוא כפל או חילוק). במצב זה אין צורך לחשב מחדש את מדדי הסדרה (מרכז, פיזור) אלא אפשר לדעת את ערכם החדש לפי מקדמי הטרנספורמציה.

 

בואו נחשוב על השאלה "כמה ילדים יש במשפחת המוצא שלך". התשובה לא יכולה להיות 0, מכיוון שלכל אדם יש לפחות ילד אחד במשפחת המוצא – הוא עצמו. עכשיו נשאל "כמה אחים יש לך", וכאן יכולה להיות תשובה 0. כלומר נצטרך להוסיף 1 לכל התצפיות כדי לדעת כמה ילדים יש במשפחת המוצא.

נניח עשינו ממוצע לציונים של התלמידים בכיתה. לאחר מכן, כל התלמידים קיבלו בונוס של חמש נקודות. הממוצע יעלה בחמש, השכיח יעלה בחמש, ואילו התחום לא ישתנה – כי גם הגבול העליון ישתנה וגם הגבול התחתון ישתנה – בדיוק באותה המידה.

נניח שיש לנו התפלגות שכר במגזר מסוים בשקלים, ואנחנו רוצים לשנות לדולרים. נצטרך לחלק את כל אחד מהערכים בשלוש וחצי. הממוצע, החציון והשכיח יהיו קטנים פי 3.5. אבל הפעם גם מדדי הפיזור משתנים: גם התחום יקטן פי 3.5. השונות תקטן פי 3.5 בריבוע.

 

מדדים למיקום מרכזי:

מדד למיקום מרכזי החדש מושפע גם מהוספה/החסרה וגם מכפל/חילוק

ממוצע חדש

חציון חדש

שכיח חדש

 

 

מדדי פיזור:

מדד הפיזור מושפע רק מקבוע המכפלה (b) (כפל וחילוק)

תחום חדש

תחום בין רבעוני חדש

שונות חדשה

סטיית תקן חדשה

 

 

 

 

דוגמא

במפעל מסוים יש 30 פועלים. ממוצע המשכורות החודשיות הוא 5000 ₪, וסטיית התקן

300 ₪. עקב קשיים במפעל הוחלט כי החל בחודש אוגוסט להוריד לכל העובדים 5% משכרם. למרות זאת, בחודש ספטמבר קיבלו העובדים שי לחג בסך 200 ש"ח.

 

  1. מהו ממוצע השכר בחודש ספטמבר? (4,950)
  2. מה סטיית התקן של השכר בספטמבר? (285)
  3. מהו הסכום שנחסך בהוצאות השכר של המפעל בחודשים אוגוסט-ספטמבר? (9,000)

 

תשובות:

  1. הממוצע בחודש ספטמבר הוא 0.95*5000+200 = 4950.
  2. סטיית התקן היא 0.95*300=285 (מכיוון שסטיית תקן לא מושפעת מפעולות חיבור וחיסור)
  3. לפני הפחתה בשכר: באוגוסט ובספטמבר ביחד השכר היה 5000*30*2. פחות הסכום של אוגוסט וספטמבר.

     

     

     

     

     

     

     

     

     

מדדי מיקום יחסי וחזרה על המדדים בפלטים

מדדים שמצביעים על המיקום היחסי של פרט/ערך מסוים בהתפלגות הנתונים.

בשונה ממדדי מרכז ופיזור שמתארים את כלל קבוצת הנתונים הרי שמדדי מיקום יחסי מתארים פרטים/ערכים מסוימים בהתפלגות.

מדדי מיקום יחסי מאפשרים להשוות תוצאות/ערכים מהתפלגויות שונות. כך ניתן לדעת, למשל באיזה תחום הנבדק תפקד טוב יותר, או להשוות באותו משתנה בין שני נבדקים השייכים להתפלגויות שונות. במילים אחרות ניתן להשוות את המיקום היחסי של פרט/ ערך מסוים ממספר התפלגויות.

1.     מאון/אחוזון (Percentile) ( או ): הערך שעד אליו נמצאים P אחוזים מההתפלגות (כשהערכים מסודרים בסדר עולה, מהנמוך לגבוה) ומעליו P%-100.

כלומר, אם בהתפלגות המשכורות בארגון מסוים התקבל ששכרו של אדם הוא 7,000 ₪ וערך זה נמצא במאון ה-60. הדבר אומר שעד לרמת שכר זו (7,000 ₪ ) נמצאים 60% מהעובדים בארגון – ומעליו 40%.

את המאון של כל ערך במשתנה ניתן למצוא באמצעות השכיחות היחסית המצטברת.

מושגים הקשורים במאונים:

המאון ה- 25 נקרא רבעון תחתון, המאון ה- 75 נקרא רבעון עליון, המאון ה- 90 ומעלה נקרא עשירון עליון,

חוקי הטרנספורמציה הליניארית משפיעים גם על חישוב המאונים (הוספה, החסרה, כפל וחילוק משפיעים עליהם)

 

2.     ציון תקן: מדד שמציין את המרחק של התצפית מממוצע הסדרה ביחידות של סטיית תקן

בהתפלגות של המשתנה המקורי. נלמד לחשב אותו כאשר נדון בנתוני אוכלוסייה.


קשרים בין משתנים

לכל אדם יש תכונות רבות ("משתנים"), וחלקן משפיעות זו על זו. תחילה נתרכז בבדיקת הקשר בין שני משתנים בלבד.

קשר בין משתנים מתאר מצב שבו שינוי בערכים של משתנה אחד גורר אחריו שינוי בערכי המשתנה השני. במלים אחרות, כשהאחד משתנה יחול גם שינוי בשני.

למשל, קשר בין כמות הספורט שאדם עושה לבין המשקל שלו. אם קיים קשר, השינוי בשעות הספורט יגרור אחריו שינוי במשקל. אם אין קשר אז כשיחול שינוי בכמות הספורט לא נמצא שינוי במשקל.

כאשר משתנה אחד משפיע על משתנה אחר, אפשר להגדיר זאת כך:

משתנה בלתי תלוי: המשתנה המשפיע, ששינוי שלו גורם לשינוי במשתנה התלוי.

משתנה תלוי: המשתנה המושפע, שהערכים שלו "זזים" כשהמשתנה הבלתי תלוי זז.

למשל, אם עוסקים בהשפעה של רמת הפעילות הגופנית על מידת השומנים בדם: המשתנה הבלתי תלוי הוא רמת פעילות גופנית, ואילו המשתנה התלוי הוא מידת השומנים בדם.

האופן בו בודקים קשר בין משתנים תלוי בסוג המשתנים:

א.     קשר בין משתנה איכותי לבין משתנה כמותי (לדוג': השפעת מין העובד על המשכורת שלו): נבדוק באמצעות השוואת צורות התפלגות, מדדי מרכז ופיזור של המשתנה הכמותי בכל ערך (קטגוריה) של המשתנה האיכותי.

ב.    קשר בין משתנה כמותי לבין משתנה כמותי (קשר בין 2 משתנים כמותיים): נבדוק לפי דיאגראמת פיזור, ובהתאם לצורת הקשר המתקבלת נשתמש במקדם המתאם הקווי (הליניארי) ובמשוואת הקו הישר/משוואת הניבוי.

ג.     קשר בין משתנה איכותי לבין משתנה איכותי: ניתוח טבלאות

 

ש.ב.

שאלה 4, שאלה 5 תרגיל 1 א+ב

 

שייך לנושאים: אורנה רב-נוף


שש − 2 =

תואר ראשון
תואר שני
מרצים