Standardní odchylka a odchylka jsou statistická měřítka rozptylu
Vzorec pro standardní odchylku a rozptyl se často vyjadřuje pomocí:
Rozptyl sady n stejně pravděpodobné hodnoty lze napsat jako:
Standardní odchylka je druhá odmocnina rozptylu:
Vzorce s řeckými písmeny mají způsob, jak vypadat skličující, ale je to méně komplikované, než se zdá. V jednoduchých krocích:
To dává rozptyl. Vezměte druhou odmocninu rozptylu a zjistěte směrodatnou odchylku.
Toto vynikající video z Khan Academy vysvětluje koncepty rozptylu a standardní odchylky:
Řekněme, že sada dat obsahuje výšku šesti pampelišek: 3 palce, 4 palce, 5 palců, 4 palce, 11 palců a 6 palců.
Nejprve zjistěte průměr datových bodů: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Průměrná výška je tedy 5,5 palce. Nyní potřebujeme odchylky, takže zjistíme rozdíl každé rostliny od střední hodnoty: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Nyní druhou mocninu odchylky a najděte jejich součet: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Nyní vydělte součet čtverců počtem datových bodů, v tomto případě rostliny: 43,5 / 6 = 7,25
Rozptyl této sady dat je tedy 7,25, což je poměrně libovolné číslo. Chcete-li ji převést na měření v reálném světě, použijte druhou odmocninu 7.25 a vyhledejte standardní odchylku v palcích.
Standardní odchylka je asi 2,69 palce. To znamená, že pro vzorek je jakýkoli pampeliška v rozmezí 2,69 palce od průměru (5,5 palce) „normální“.
Odchylky jsou umocněny na druhou, aby se zabránilo negativním hodnotám (odchylkám pod středním průměrem) zrušení pozitivních hodnot. Funguje to proto, že záporné číslo na druhou se stává kladnou hodnotou. Pokud jste měli jednoduchý soubor dat s odchylkami od průměru +5, +2, -1 a -6, součet odchylek vyjde jako nula, pokud hodnoty nejsou na druhou (tj. 5 + 2 - 1 - 6 = 0).
Variace je vyjádřena jako matematická disperze. Protože se jedná o libovolné číslo vzhledem k původním měřením sady dat, je obtížné vizualizovat a aplikovat v reálném smyslu. Nalezení rozptylu je obvykle jen posledním krokem před nalezením směrodatné odchylky. Hodnoty variací se někdy používají ve finančních a statistických vzorcích.
Standardní odchylka, která je vyjádřena v původních jednotkách datového souboru, je mnohem intuitivnější a blíže hodnotám původního datového souboru. Nejčastěji se používá k analýze demografických údajů nebo vzorků populace k získání smyslu toho, co je v populaci normální.
V normálním rozdělení spadá přibližně 68% populace (nebo hodnot) do 1 směrodatné odchylky (1σ) od průměru a přibližně 94% spadá do 2σ. Hodnoty, které se liší od průměru o 1,7σ nebo více, se obvykle považují za odlehlé hodnoty.
V praxi se systémy kvality, jako je Six Sigma, pokoušejí snížit míru chyb tak, aby se chyby staly outlierem. Termín „proces šest sigma“ vychází z představy, že pokud má člověk šest standardních odchylek mezi střední hodnotou procesu a nejbližším limitem specifikace, prakticky žádné položky nesplní specifikace..[1]
V aplikacích v reálném světě používané datové soubory obvykle reprezentují vzorky populace, nikoli celé populace. Mírně upravený vzorec se používá, pokud mají být z části vzorku vyvodeny závěry pro celou populaci.
„Standardní odchylka vzorku“ se používá, pokud máte pouze vzorek, ale chcete učinit prohlášení o standardní odchylce populace, ze které je vzorek čerpán.
Jediným způsobem, jak se vzorec směrodatné odchylky vzorku liší od vzorce směrodatné odchylky, je „-1“ ve jmenovateli.
Na příkladu pampelišky by byl tento vzorec potřebný, kdybychom vzorkovali pouze 6 pampelišek, ale chtěli jsme použít tento vzorek k určení standardní odchylky pro celé pole se stovkami pampelišek.
Součet čtverců by se nyní vydělil 5 místo 6 (n - 1), což dává rozptyl 8,7 (namísto 7,25) a standardní směrodatnou odchylku 2,95 palce namísto 2,69 palce pro původní směrodatnou odchylku. Tato změna se používá k nalezení meze chyby ve vzorku (v tomto případě 9%).