Rozdíl mezi schématem hvězd a sněhových vloček

Skladování dat je systém určený k ukládání a organizaci dat v centrálních úložištích včetně dat z jiných zdrojů. Je to základní koncept business intelligence v relačních databázových modelech, který využívá analytické techniky k integraci obchodních dat do centrální databáze.

V datovém skladu se používají dva běžné architektonické modely:

  • Star Scheme
  • Schéma sněhové vločky

Oba jsou společné vícerozměrné databázové modely používané k řešení potřeb velkých databází pro analytické účely v reálných datových skladech.

Předkládáme objektivní srovnání mezi těmito dvěma, abychom lépe pochopili, který z nich je lepší než druhý.

Co je to Star Schema?

Je to nejběžnější a široce přijímaný architektonický model používaný k vývoji datových skladů a datových center, ve kterých jsou data organizována do faktů a dimenzí. Je to nejjednodušší architektonický model, ve kterém se jedna faktická tabulka používá k odkazu na tabulky s více rozměry, napodobující hvězdicový vzor.

Jak název napovídá, diagram se podobá hvězdě se skutečnou tabulkou ve středu a několika rozměrovými tabulkami vyzařujícími z ní, čímž se vytvoří hvězdicový vzor.

Je také známá jako Schéma spojení hvězd a ukládá všechny atributy dimenze do jedné denormalizované tabulky faktů, aby rychle procházela rozsáhlými vícerozměrnými datovými sadami, které odpovídají rychlým časům odezvy na dotazy..

Co je Schéma sněhové vločky?

Jedná se o rozšíření hvězdného schématu s přidanými funkcemi. Na rozdíl od schématu hvězd jsou tabulky rozměrů ve schématu sněhové vločky normalizovány do několika souvisejících tabulek.

Architektonický model představuje logické uspořádání tabulek v hierarchii vztahů mezi dvěma, kde jsou vícerozměrné tabulky normalizovány na podrozměrné tabulky, připomínající vzor podobný sněhové vločky, odtud název.

Jedná se o složitější verzi schématu hvězd s více spojeními mezi tabulkami dimenzí, které způsobují pomalý čas zpracování pro načtení dat, což znamená pomalé doby odezvy dotazů. Minimalizuje redundanci dat, což zase zlepšuje výkon dotazů.

Rozdíl mezi schématem hvězd a sněhové vločky

Architektura schématu hvězd a sněhových vloček

V relačních databázích je schéma hvězd nejjednodušším architektonickým modelem používaným pro vývoj datových skladů a vícerozměrných datových map. Jak název napovídá, model se podobá hvězdě s body vyzařujícími ze středu, což znamená, že tabulka faktů je střed a body jsou tabulky rozměrů. Stejně jako jiné dimenzionální modely se skládá z dat ve formě faktů a dimenzí. Schéma sněhové vločky je naproti tomu složitější architektonický model, který odkazuje na vícerozměrnou databázi s logickým uspořádáním tabulek ve formě sněhové vločky..

Tabulka rozměrů

Schéma sněhové vločky je docela podobné schématu hvězd s výjimkou, že může mít více než jednu dimenzi tabulky, které jsou dále normalizovány do více souvisejících tabulek označovaných jako tabulky subdimenze. Představuje několik úrovní vztahů, které se rozvětvují do sněhové vločky. Hvězdové schéma však ukládá všechny související atributy dimenze do jedné denormalizované tabulky rozměrů, což usnadňuje pochopení a zpracování jednodušších dotazů..

Obchodní model schématu hvězdy a sněhové vločky

Tabulka dimenzí nemůže obsahovat duplicitní řádky v relačních databázových modelech pro jednoduchou skutečnost, že by mohla vyvolat nejednoznačnosti při načítání. Každá tabulka by měla mít sloupec nebo kombinaci sloupců nazývaných primární klíč, který jednoznačně identifikuje všechny záznamy tabulky. Cizí klíč je sloupec nebo skupina sloupců, které poskytují spojení mezi dvěma tabulkami. Ve schématu hvězd má každá tabulka rozměrů primární klíč, který souvisí s cizím klíčem v tabulce skutečností. Hierarchie podnikání ve schématu sněhové vločky je reprezentována vztahem primárního klíče / cizího klíče mezi tabulkami dimenzí.

Integrita dat ve schématu Star a Snowflake

Klíčovým rozdílem mezi těmito dvěma relačními databázovými modely je normalizace. Tabulky dimenzí ve schématu hvězd nejsou normalizovány, což znamená, že obchodní model použije relativně více místa k uložení tabulek dimenzí a více místa znamená více redundantních záznamů, které by nakonec způsobily nekonzistenci. Schéma sněhové vločky na druhé straně minimalizuje redundanci dat, protože tabulky rozměrů jsou normalizovány, což odpovídá mnohem méně redundantním záznamům. Obchodní hierarchie a její dimenze jsou zachovány prostřednictvím referenční integrity, což znamená, že vztahy lze v datových skladech aktualizovat nezávisle.

Výkon dotazu

Hvězdné schéma má méně spojů mezi tabulkou rozměrů a tabulkou faktů ve srovnání se schématem sněhové vločky, který má více spojení, což odpovídá menší složitosti dotazů. Protože jsou dimenze ve schématu hvězd propojeny prostřednictvím centrální faktické tabulky, má jasné spojovací cesty, které znamenají rychlé doby odezvy na dotaz a rychlá doba odezvy znamená lepší výkon. Schéma Snowflake má větší počet spojení, takže delší doby odezvy na dotazy, což vede ke složitějším dotazům, které nakonec snižují výkon.

Schéma hvězdy vs. schéma sněhové vločky: Srovnávací tabulka


Shrnutí schématu Snowflake Star verses

Oba jsou nejčastější a široce přijímané architektonické modely používané k vývoji databázových skladů a datových serverů. Každý obchodní model má však spravedlivý podíl na kladech a záporech. Zatímco hvězdné schéma je nejjednodušší vícerozměrný model používaný k uspořádání dat do faktů a dimenzí, je ideální pro vývoj datových diagramů, které zahrnují méně složité vztahy. Schéma sněhové vločky je logické znázornění tabulek ve vícerozměrné databázi, ve které jsou kóty uloženy v dílčích rozměrových tabulkách. Hlavním rozdílem mezi nimi je normalizace. Tabulky dimenzí ve schématu sněhové vločky jsou zcela normalizovány do několika vyhledávacích tabulek, zatímco ve schématu hvězd jsou tabulky dimenzí denormalizovány do jedné centrální faktické tabulky..