Těžba dat vs OLAP
Dolování dat i OLAP jsou dvě ze společných technologií Business Intelligence (BI). Business inteligence označuje počítačové metody pro identifikaci a extrahování užitečných informací z obchodních dat. Dolování dat je oblast počítačové vědy, která se zabývá získáváním zajímavých vzorců z velkých souborů dat. Kombinuje mnoho metod od umělé inteligence, statistik a správy databází. OLAP (online analytické zpracování), jak název napovídá, je kompilací způsobů dotazování vícerozměrných databází.
Dolování dat je také známé jako Zjišťování znalostí v datech (KDD). Jak je uvedeno výše, jedná se o oblast informatiky, která se zabývá extrakcí dříve neznámých a zajímavých informací ze surových dat. Kvůli exponenciálnímu růstu dat, zejména v oblastech jako je podnikání, se dolování dat stalo velmi důležitým nástrojem pro převedení tohoto velkého množství dat do podnikové inteligence, protože ruční extrakce vzorců se v posledních několika desetiletích zdánlivě znemožnila. Například se v současné době používá pro různé aplikace, jako je analýza sociálních sítí, detekce podvodů a marketing. Dolování dat se obvykle zabývá následujícími čtyřmi úkoly: shlukování, klasifikace, regrese a asociace. Shlukování identifikuje podobné skupiny z nestrukturovaných dat. Klasifikace jsou pravidla učení, která lze použít na nová data a obvykle budou zahrnovat následující kroky: předzpracování dat, navrhování modelování, výběr učení / funkce a vyhodnocení / ověření. Regrese je nalezení funkcí s minimálními chybami pro modelování dat. A asociace hledá vztahy mezi proměnnými. Dolování dat se obvykle používá k zodpovězení otázek, jaké jsou hlavní produkty, které by mohly příští rok ve Wal-Martu pomoci dosáhnout vysokého zisku.
OLAP je třída systémů, které poskytují odpovědi na vícerozměrné dotazy. OLAP se obvykle používá pro marketing, rozpočtování, předpovědi a podobné aplikace. Je samozřejmé, že databáze používané pro OLAP jsou konfigurovány pro komplexní a ad-hoc dotazy s rychlým výkonem. Typicky se k zobrazení výstupu OLAP používá matice. Řádky a sloupce jsou tvořeny rozměry dotazu. K získání shrnutí často používají metody agregace na více tabulkách. Může být například použito k získání informací o prodeji tohoto roku ve Wal-Martu ve srovnání s loňským rokem? Jaká je predikce tržeb v příštím čtvrtletí? Co lze říci o trendu při pohledu na procentuální změnu?
I když je zřejmé, že dolování dat a OLAP jsou podobné, protože pracují s daty, aby získaly inteligenci, hlavní rozdíl spočívá v tom, jak pracují s daty. Nástroje OLAP poskytují vícerozměrnou analýzu dat a poskytují souhrny údajů, ale naopak se těžba dat zaměřuje na poměry, vzorce a vlivy v sadě dat. Jedná se o OLAP řešení s agregací, které se scvrkává na provoz dat pomocí „sčítání“, ale dolování dat odpovídá „dělení“. Dalším pozoruhodným rozdílem je, že zatímco nástroje pro dolování dat modelují data a vracejí použitelná pravidla, OLAP bude provádět srovnávací a kontrastní techniky podél obchodní dimenze v reálném čase..