Dolování dat vs. skladování dat
Dolování dat a skladování dat jsou velmi výkonné a populární techniky pro analýzu dat. Uživatelé, kteří mají sklon ke statistikám, používají dolování dat. Používají statistické modely k hledání skrytých vzorců v datech. Horníci údajů mají zájem najít užitečné vztahy mezi různými datovými prvky, což je pro podniky v konečném důsledku výhodné. Na druhou stranu však odborníci na data, kteří dokážou analyzovat dimenzi podnikání přímo, obvykle používají datové sklady.
Dolování dat je také známé jako Zjišťování znalostí v datech (KDD). Jak je uvedeno výše, jedná se o oblast informatiky, která se zabývá extrakcí dříve neznámých a zajímavých informací ze surových dat. Kvůli exponenciálnímu růstu dat, zejména v oblastech jako je podnikání, se dolování dat stalo velmi důležitým nástrojem pro převedení tohoto velkého množství dat do podnikové inteligence, protože ruční extrakce vzorců se v posledních několika desetiletích zdánlivě znemožnila. Například se v současné době používá pro různé aplikace, jako je analýza sociálních sítí, detekce podvodů a marketing. Dolování dat se obvykle zabývá následujícími čtyřmi úkoly: shlukování, klasifikace, regrese a asociace. Shlukování identifikuje podobné skupiny z nestrukturovaných dat. Klasifikace jsou pravidla učení, která lze použít na nová data a obvykle budou zahrnovat následující kroky: předzpracování dat, navrhování modelování, výběr učení / funkce a vyhodnocení / ověření. Regrese je nalezení funkcí s minimálními chybami pro modelování dat. A asociace hledá vztahy mezi proměnnými. Dolování dat se obvykle používá k zodpovězení otázek, jaké jsou hlavní produkty, které by mohly příští rok ve Wal-Martu pomoci dosáhnout vysokého zisku?
Jak bylo uvedeno výše, skladování dat se používá také pro analýzu dat, ale různými skupinami uživatelů a mírně odlišným cílem. Například, pokud jde o maloobchodní sektor, uživatelé datového skladu se více zajímají o to, jaké druhy nákupů jsou mezi zákazníky populární, takže výsledky analýzy mohou zákazníkovi pomoci zlepšením zákaznické zkušenosti. Důlní data však nejprve předpokládají hypotézu, podle níž zákazníci kupují určitý typ produktu, a analyzují data, aby hypotézu otestovali. Skladování dat by mohl provádět významný maloobchodník, který zpočátku skladoval své obchody se stejnými velikostmi produktů, aby později zjistil, že newyorské obchody prodávají zásoby menší velikosti mnohem rychleji než v chicagských obchodech. Při pohledu na tento výsledek tedy maloobchodník může skladovat obchod v New Yorku s menšími rozměry ve srovnání s chicagskými obchody.
Jak tedy jasně vidíte, zdá se, že tyto dva typy analýz jsou pouhým okem stejné povahy. Oba se obávají zvýšení zisku na základě historických údajů. Ale samozřejmě existují zásadní rozdíly. Zjednodušeně řečeno, Data Mining a Data Warehousing jsou určeny k poskytování různých typů analytiků, ale určitě pro různé typy uživatelů. Jinými slovy, Data Mining hledá korelace, poklepává na podporu statistické hypotézy. Data Warehousing však odpovídá na poměrně širší otázku a odtud dále krájí a nakreslí data, aby rozpoznal způsoby zlepšení v budoucnosti..