Ve statistice se výrazem vzorkování rozumí výběr části souhrnných statistických údajů za účelem získání relevantních informací o celku. Souhrn nebo celá statistická informace o konkrétní povaze všech členů, kterých se šetření týká, se nazývá „populace“ nebo „vesmír“. (Das, N.G., 2010). Vybraná část populace, která se používá k získání charakteristik populace nebo vesmíru, se nazývá „vzorek“. Obyvatelstvo se skládá z jednotlivých jednotek nebo členů a některé jednotky jsou zahrnuty do vzorku. Celkový počet jednotek populace se nazývá velikost populace a velikost vzorku se nazývá velikost vzorku. Obyvatelstvo a vzorek mohou být konečné nebo nekonečné a podobně mohou existovat nebo hypoteticky.
Odchylka: Varianta je numerická hodnota, která ukazuje, do jaké míry se jednotlivé údaje v sadě dat distribuují o průměru. To je, jak daleko je každé číslo od průměru, a tedy od sebe navzájem. Rozptyl nulové hodnoty znamená, že všechna data jsou identická. Čím více rozptyl, tím více jsou hodnoty rozprostřeny o střední hodnotě, tedy od sebe navzájem. Méně rozptylu, méně jsou hodnoty rozprostřené o průměru, tedy od sebe navzájem, a rozptyl nemůže být záporný.
Hlavní rozdíl mezi rozptylem populace a rozptylem vzorku souvisí s výpočtem rozptylu. Odchylka se počítá v pěti krocích. Vypočítá se první průměr, poté vypočítáme odchylky od průměru a zatřetí se odchylky odečtou na druhou, na čtvrté se spočítají odchylky na druhou a nakonec se tato částka vydělí počtem položek, pro které se vypočítává rozptyl. Tudíž rozptyl = Σ (xi-x -) / n. Kde xi = i. Počet, x- = průměr an = počet položek…
Nyní, když se má rozptyl vypočítat z údajů o populaci, n se rovná počtu položek. Pokud tedy má být rozptyl krevního tlaku všech 1 000 osob vypočítán z údajů o krevním tlaku všech 1 000 lidí, pak n = 1 000. Když se však rozptyl vypočítává z údajů vzorku 1, musí být odečtena z n před dělením součet čtverců odchylek. Pokud tedy ve výše uvedeném příkladu mají vzorové údaje 100 položek, jmenovatel by byl 100 - 1 = 99.
Z tohoto důvodu je hodnota rozptylu vypočtená z údajů vzorku vyšší než hodnota, která mohla být zjištěna pomocí údajů o populaci. Logika toho je kompenzovat náš nedostatek informací o populačních datech. Je nemožné zjistit rozptyl výšek u lidí, protože náš absolutní nedostatek informací o výškách všech živých lidských bytostí, nemluvě o budoucnosti. I když vezmeme jeden umírněný příklad, jako jsou údaje o populaci ve výškách všech žijících mužů v USA, je to fyzicky možné, ale náklady a čas, které jsou s tím spojeny, by porazily účel jeho výpočtu. To je důvod, proč jsou vzorkové údaje odebírány pro většinu statistických účelů, a to je doprovázeno nedostatkem informací o většině údajů. Aby se to kompenzovalo, hodnota rozptylu a směrodatná odchylka, která je druhou mocninou kořene rozptylu, je vyšší v případě vzorových dat než rozptyl z populačních dat.
To funguje jako automatický štít pro analytiky a tvůrce rozhodnutí. Logika platí pro rozhodnutí o kapitálovém rozpočtování, osobních a obchodních financích, stavebnictví, řízení provozu a mnoha použitelných oblastech. To pomáhá držiteli podílu být na bezpečné straně při rozhodování nebo pro jiné závěry.
Souhrn: Populační rozptyl označuje hodnotu rozptylu, která se vypočítá z údajů o populaci, a rozptyl vzorku je rozptyl vypočtený z údajů vzorku. Vzhledem k této hodnotě jmenovatele ve vzorci pro rozptyl je v případě údajů ve vzorku „n-1“ a pro „populační“ je to „n“. V důsledku toho jsou jak rozptyl, tak směrodatná odchylka odvozená z údajů vzorku více než ty, které byly zjištěny z údajů o populaci.