Centrální tendence vs. disperze
V popisné a inferenciální statistice se používá několik indexů k popisu datového souboru, který odpovídá jeho centrální tendenci, rozptylu a skewningu: tři nejdůležitější vlastnosti, které určují relativní tvar distribuce datového souboru.
Co je hlavní tendence?
Centrální tendence označuje a lokalizuje střed rozložení hodnot. Průměr, režim a medián jsou nejčastěji používanými indexy při popisu centrální tendence datové sady. Pokud je sada dat symetrická, pak se střední hodnota i průměr sady dat shodují.
Při dané sadě dat se průměr vypočítá tak, že se spočítá součet všech hodnot údajů a poté se vydělí počtem dat. Například, hmotnost 10 lidí (v kilogramech) se měří na 70, 62, 65, 72, 80, 70, 63, 72, 77 a 79. Pak může být průměrná hmotnost deseti lidí (v kilogramech) vypočteno následovně. Součet hmotností je 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Průměr = (součet) / (počet dat) = 710/10 = 71 (v kilogramech). Rozumí se, že extrémní hodnoty (datové body, které se liší od normálního trendu) mají tendenci ovlivňovat průměr. Znamená to, že v přítomnosti odlehlých hodnot nebude samotný znamenat správný obraz o středu datové sady.
Medián je datový bod nalezený v přesném středu sady dat. Jedním ze způsobů, jak vypočítat střední hodnotu, je uspořádat datové body ve vzestupném pořadí a poté lokalizovat datový bod uprostřed. Například, pokud je jednou objednáno, vypadá předchozí sada dat 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. (70 + 72) / 2 = 71 je tedy uprostřed. Z toho je patrné, že střední hodnota nemusí být v sadě dat. Medián není ovlivněn přítomností odlehlých hodnot. Medián tedy bude sloužit jako lepší míra centrální tendence v přítomnosti odlehlých hodnot.
Režim je nejčastěji se vyskytující hodnota v sadě dat. V předchozím příkladu se hodnota 70 a 72 vyskytují dvakrát, a proto jsou oba režimy. To ukazuje, že v některých distribucích existuje více než jedna modální hodnota. Pokud existuje pouze jeden režim, je sada dat považována za unimodální, v tomto případě je sada dat bimodální.
Co je rozptyl?
Disperze je množství šíření dat o středu distribuce. Rozsah a směrodatná odchylka jsou nejčastěji používanými měřítky rozptylu.
Rozsah je jednoduše nejvyšší hodnota minus nejnižší hodnota. V předchozím příkladu je nejvyšší hodnota 80 a nejnižší hodnota 62, takže rozsah je 80-62 = 18. Rozsah však neposkytuje dostatečný obraz o rozptylu.
Pro výpočet směrodatné odchylky se nejprve vypočítají odchylky hodnot dat od střední hodnoty. Kořenový čtvercový průměr odchylek se nazývá standardní odchylka. V předchozím příkladu jsou příslušné odchylky od střední hodnoty (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 a (79 - 71) = 8. Součet čtverce odchylky je (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Standardní odchylka je √ (366/10) = 6,05 (v kilogramech). Pokud není soubor dat výrazně zkosený, lze z toho učinit závěr, že většina dat je v intervalu 71 ± 6,05, a je tomu tak v tomto konkrétním příkladu.
Jaký je rozdíl mezi centrální tendencí a rozptylem? • Centrální tendence označuje a lokalizuje střed rozložení hodnot • Disperze je množství šíření dat o středu datové sady.
|