Hierarchické vs. částečné shlukování
Clustering je technika strojového učení pro analýzu dat a rozdělení do skupin podobných dat. Tyto skupiny nebo sady podobných dat jsou známé jako klastry. Clusterová analýza se zaměřuje na shlukové algoritmy, které dokáží automaticky identifikovat klastry. Hierarchické a částečné jsou dvě takové třídy klastrových algoritmů. Hierarchické klastrové algoritmy rozdělují data do hierarchie klastrů. Paritační algoritmy rozdělují datový soubor na vzájemně nesouvislé oddíly.
Co je hierarchické klastrování?
Hierarchické shlukové algoritmy opakují cyklus sloučení menších shluků do větších nebo rozdělení větších shluků na menší. Ať tak či onak, vytváří hierarchii shluků zvanou dendogram. Aglomerační klastrovací strategie používá přístup sloučení klastrů zdola nahoru k větším, zatímco dělitelná klastrová strategie používá přístup shora dolů k rozdělení na menší. Obvykle se chamtivý přístup používá při rozhodování, které větší / menší shluky se používají pro slučování / dělení. Euklidovská vzdálenost, manhattanská vzdálenost a kosinová podobnost jsou některé z nejčastěji používaných metrik podobnosti pro numerická data. Pro nečíselná data se používají metriky, jako je Hammingova vzdálenost. Je důležité poznamenat, že skutečná pozorování (instance) nejsou pro hierarchické shlukování zapotřebí, protože postačuje pouze matice vzdáleností. Dendogram je vizuální reprezentace klastrů, která velmi jasně zobrazuje hierarchii. Uživatel může získat různé shlukování v závislosti na úrovni, ve které je dendogram řezán.
Co je částečné klastrování?
Algoritmy rozdělení clusterů generují různé oddíly a poté je vyhodnotí podle určitého kritéria. Oni jsou také odkazoval se na jak nonhierarchical jak každá instance je umístěna přesně v jednom z k vzájemně se vylučujících shluků. Protože pouze typová skupina clusterů je výstupem typického algoritmu částečného klastru, je uživatel povinen zadat požadovaný počet clusterů (obvykle se nazývá k). Jedním z nejčastěji používaných parciálních klastrových algoritmů je k-prostředkový klastrovací algoritmus. Uživatel je povinen poskytnout počet clusterů (k) před spuštěním a algoritmus nejprve iniciuje středy (nebo těžiště) oddílů k. Stručně řečeno, k-znamená klastrovací algoritmus poté přiřadí členy na základě aktuálních center a přehodnocuje centra na základě aktuálních členů. Tyto dva kroky se opakují, dokud nejsou optimalizovány určité objektivní funkce podobnosti uvnitř klastru a objektová funkce rozdílnosti mezi klastry. Proto je rozumná inicializace center velmi důležitým faktorem při získávání kvalitních výsledků pomocí algoritmů částečného shlukování.
Jaký je rozdíl mezi hierarchickým a částečným seskupováním?
Hierarchické a částečné klastry mají klíčové rozdíly v době běhu, předpokladech, vstupních parametrech a výsledných klastrech. Částečné klastrování je obvykle rychlejší než hierarchické klastrování. Hierarchické klastrování vyžaduje pouze opatření podobnosti, zatímco klastrované klastrování vyžaduje silnější předpoklady, jako je počet klastrů a počáteční centra. Hierarchické klastrování nevyžaduje žádné vstupní parametry, zatímco algoritmy částečné klastrování vyžadují, aby byl spuštěn počet klastrů. Hierarchické klastrování vrací mnohem smysluplnější a subjektivnější rozdělení klastrů, ale částečné klastrování vede k klastrům přesně k. Hierarchické shlukové algoritmy jsou vhodnější pro kategorická data, pokud lze podle toho definovat míru podobnosti.