Rozdíl mezi KDD a těžbou dat

KDD vs. dolování dat

KDD (Knowledge Discovery in Databases) je oblast informatiky, která zahrnuje nástroje a teorie, které pomáhají lidem při získávání užitečných a dříve neznámých informací (tj. Znalostí) z velkých sbírek digitalizovaných dat. KDD se skládá z několika kroků a jednou z nich je dolování dat. Data Mining je aplikace specifického algoritmu za účelem extrahování vzorů z dat. Nicméně KDD a Data Mining se používají zaměnitelně.

Co je KDD?

Jak je uvedeno výše, KDD je oblast informatiky, která se zabývá extrakcí dříve neznámých a zajímavých informací ze surových dat. KDD je celý proces pokusu o smysluplnost dat vyvíjením vhodných metod nebo technik. Tento proces se zabývá mapováním nízkoúrovňových dat do jiných forem, které jsou kompaktnější, abstraktnější a užitečnější. Toho je dosaženo vytvářením krátkých zpráv, modelováním procesu generování dat a vývojem prediktivních modelů, které mohou předpovídat budoucí případy. Kvůli exponenciálnímu růstu dat, zejména v oblastech jako je podnikání, se KDD stala velmi důležitým procesem přeměny tohoto velkého množství dat na obchodní inteligenci, protože ruční extrakce vzorců se v posledních několika desetiletích zdánlivě nedala zrealizovat. Například se v současné době používá pro různé aplikace, jako je analýza sociálních sítí, detekce podvodů, věda, investice, výroba, telekomunikace, čištění dat, sport, vyhledávání informací a převážně pro marketing. KDD se obvykle používá k zodpovězení otázek, jaké jsou hlavní produkty, které by mohly příští rok ve Wal-Martu pomoci dosáhnout vysokého zisku? Tento proces má několik kroků. Začíná to vývojem pochopení aplikační domény a cíle a poté vytvořením cílové datové sady. Následuje čištění, předzpracování, redukce a promítání dat. Dalším krokem je identifikace vzoru pomocí dolování dat (vysvětleno níže). Nakonec jsou objevené znalosti konsolidovány vizualizací a / nebo tlumočením.

Co je dolování dat?

Jak je uvedeno výše, dolování dat je pouze krokem v rámci celého procesu KDD. Existují dva hlavní cíle dolování dat, jak jsou definovány cílem aplikace, a to ověřování nebo objevování. Ověření ověřuje hypotézu uživatele o datech, zatímco objev automaticky vyhledává zajímavé vzorce. Existují čtyři hlavní úlohy dolování dat: shlukování, klasifikace, regrese a asociace (shrnutí). Shlukování identifikuje podobné skupiny z nestrukturovaných dat. Klasifikace jsou pravidla učení, která lze použít na nová data. Regrese je nalezení funkcí s minimálními chybami pro modelování dat. A asociace hledá vztahy mezi proměnnými. Poté je třeba vybrat konkrétní algoritmus dolování dat. V závislosti na cíli mohou být vybrány různé algoritmy, jako je lineární regrese, logistická regrese, rozhodovací stromy a Naivní Bayes. Poté jsou prohledávány vzorce zájmu v jedné nebo více reprezentativních formách. Nakonec jsou modely vyhodnoceny pomocí predikční přesnosti nebo srozumitelnosti.

Jaký je rozdíl mezi KDD a těžbou dat?

Ačkoli dva termíny KDD a Data Mining jsou silně používány zaměnitelně, odkazují na dva související, ale mírně odlišné koncepty. KDD je celkový proces získávání znalostí z dat, zatímco dolování dat je krokem uvnitř procesu KDD, který se zabývá identifikací vzorů v datech. Jinými slovy, Data Mining je pouze aplikace specifického algoritmu založeného na celkovém cíli procesu KDD.