Shlukování a klasifikační techniky se používají ve strojovém učení, získávání informací, vyšetřování obrazu a souvisejících úkolech.
Tyto dvě strategie jsou dvě hlavní divize procesů dolování dat. Ve světě analýzy dat jsou tyto prvky nezbytné pro správu algoritmů. Konkrétně oba tyto procesy dělí data do sad. Tento úkol je v dnešním informačním věku velmi důležitý, protože je třeba vhodně usnadnit obrovský nárůst dat spojený s vývojem..
Klastrování a klasifikace zejména pomáhají řešit globální problémy, jako je trestná činnost, chudoba a nemoci, prostřednictvím vědy o údajích.
V zásadě shlukování zahrnuje seskupování dat s ohledem na jejich podobnosti. Jedná se především o měření vzdálenosti a algoritmy shlukování, které vypočítávají rozdíl mezi daty a systematicky je dělí.
Například studenti s podobnými styly učení jsou seskupeni a jsou vyučováni odděleně od studentů s odlišnými přístupy k učení. Při těžbě dat se klastrování nejčastěji označuje jako „technik učení bez dozoru“, protože seskupení je založeno na přirozené nebo vlastní charakteristice.
Uplatňuje se v několika vědeckých oborech, jako jsou informační technologie, biologie, kriminalistika a medicína.
Clustering nemá přesnou definici, proto existují různé klastrovací algoritmy nebo klastrové modely. Zhruba řečeno, dva druhy shlukování jsou tvrdé a měkké. Tvrdé klastrování se týká označení objektu jako jednoduše patřícího do klastru nebo ne. Naproti tomu měkké klastrování nebo fuzzy klastrování určuje míru toho, jak něco patří do určité skupiny.
Ověřování nebo hodnocení výsledků ze shlukové analýzy je často obtížné zjistit kvůli její vlastní nepřesnosti.
Protože se jedná o nepodloženou studijní strategii, analýza je založena pouze na současných vlastnostech; není tedy zapotřebí žádná přísná regulace.
Klasifikace znamená přiřazení štítků existujícím situacím nebo třídám; proto termín „klasifikace“. Například studenti vykazující určité učební vlastnosti jsou klasifikováni jako vizuální studenti.
Klasifikace se také nazývá „učená technika pod dohledem“, kdy se stroje učí z již označených nebo utajovaných údajů. Je vysoce použitelný v rozpoznávání vzorů, statistikách a biometrických údajích.
Pro analýzu dat je klasifikátor definovaný algoritmus, který konkrétně mapuje informace na konkrétní třídu. Například klasifikační algoritmus by vyškolil model k identifikaci, zda je určitá buňka maligní nebo benigní.
Kvalita klasifikační analýzy je často hodnocena přesností a odvoláním, což jsou populární metrické postupy. Klasifikátor je vyhodnocen z hlediska jeho přesnosti a citlivosti při identifikaci výstupu.
Klasifikace je supervidovaná učební technika, protože přiřadí předem určené identity na základě srovnatelných znaků. Odvozuje funkci z označeného tréninkového souboru.
Hlavní rozdíl spočívá v tom, že klastrování není kontrolováno a je považováno za „samoučení“, zatímco klasifikace je kontrolována, protože závisí na předdefinovaných štítcích.
Clustering nepoužitelně nezaměstnává tréninkové sady, což jsou skupiny instancí používaných k vytváření seskupení, zatímco klasifikace nezbytně potřebuje tréninkové sady pro identifikaci podobných funkcí.
Clustering pracuje s neoznačenými daty, protože nevyžaduje školení. Na druhé straně klasifikace se zabývá neznačenými i označenými daty ve svých procesech.
Clustering seskupuje objekty s cílem zúžit vztahy a naučit se nové informace ze skrytých vzorů, zatímco klasifikace se snaží určit, do které explicitní skupiny patří určitý objekt..
Zatímco klasifikace nestanoví, co je třeba se naučit, shlukování specifikuje požadované zlepšení, protože poukazuje na rozdíly tím, že zvažuje podobnosti mezi daty.
Obecně se shlukování skládá pouze z jedné fáze (seskupení), zatímco klasifikace má dvě fáze, školení (model se učí ze souboru údajů o školení) a testování (předpovídá se cílová třída).
Stanovení okrajových podmínek je v klasifikačním procesu velmi důležité ve srovnání se seskupováním. Například pro stanovení klasifikace je třeba znát procentuální rozsah „nízký“ ve srovnání s „mírným“ a „vysoký“.
Ve srovnání s klastrováním je klasifikace více zapojena do predikce, protože se zaměřuje zejména na cílové třídy identity. To může být například použito v „detekci klíčových bodů obličeje“, protože může být použito při předpovídání toho, zda určitý svědek lže nebo ne..
Protože klasifikace sestává z více fází, zabývá se predikcí a zahrnuje stupně nebo úrovně, je její „povaha komplikovanější ve srovnání se sdružováním, které se zabývá hlavně seskupováním podobných atributů.
Clustering algoritmy jsou hlavně lineární a nelineární, zatímco klasifikace se skládá z více algoritmických nástrojů, jako jsou lineární klasifikátory, neuronové sítě, odhady jádra, rozhodovací stromy a podpůrné vektorové stroje..
Shlukování | Klasifikace |
Data bez dozoru | Údaje pod dohledem |
Není vysoce hodnotné tréninkové sady | Má vysoce hodnotné tréninkové sady |
Funguje pouze s neznačenými daty | Zahrnuje neznačená i označená data |
Snaží se identifikovat podobnosti mezi daty | Zaměřuje se na ověření, kam patří datum |
Určuje požadovanou změnu | Nespecifikuje požadované zlepšení |
Má jednu fázi | Má dvě fáze |
Stanovení okrajových podmínek není prvořadé | Při provádění fází je nezbytná identifikace okrajových podmínek |
Obecně se nezabývá predikcí | Nabídky s predikcí |
Používá hlavně dva algoritmy | Má řadu pravděpodobných algoritmů k použití |
Proces je méně složitý | Proces je složitější |