Rozdíl mezi pytlováním a náhodným lesem

V průběhu let bylo mnoho klasifikačních systémů, také nazývaných systémy souborů, populárním tématem výzkumu a těšilo se rostoucí pozornosti v komunitě výpočetní inteligence a strojového učení. Přitáhl zájem vědců z několika oborů, včetně strojového učení, statistiky, rozpoznávání vzorů a zjišťování znalostí v databázích. Postupem času se ukázaly jako velmi efektivní a univerzální v celé škále problémových domén a aplikací v reálném světě. Původně byly vyvinuty ke zmenšení rozptylu v automatizovaném systému rozhodování. Od té doby se pro řešení řady problémů se strojovým učením používají komplikační metody. Představujeme přehled dvou nejvýznamnějších algoritmů souboru - Bagging a Random Forest - a diskutujeme rozdíly mezi těmito dvěma.

V mnoha případech se ukázalo, že pytlování, které používá vzorkování bootstrapu, má klasifikační šachy vyšší přesnost než jediný klasifikační strom. Bagging je jedním z nejstarších a nejjednodušších algoritmů založených na souborech, které lze použít ke stromovým algoritmům, aby se zvýšila přesnost předpovědí. Existuje ještě další vylepšená verze pytlování nazývaná algoritmus Random Forest, což je v podstatě soubor rozhodovacích stromů vyškolených pomocí pytlovacího mechanismu. Podívejme se, jak algoritmus náhodných domén funguje a jak se liší od pytlování v souborových modelech.

Pytlování

Agregace Bootstrap, známá také jako pytlování, je jedním z prvních a nejjednodušších algoritmů založených na souboru, díky nimž jsou rozhodovací stromy robustnější a dosahují lepších výkonů. Koncept za pytlování je kombinovat předpovědi několika základních studentů a vytvářet přesnější výstup. Leo Breiman představil algoritmus pytlování v roce 1994. Ukázal, že agregace bootstrapu může přinést požadované výsledky v nestabilních algoritmech učení, kde malé změny údajů o tréninku mohou způsobit velké odchylky v předpovědích. Bootstrap je vzorek datové sady s nahrazením a každý vzorek je generován rovnoměrným vzorkováním tréninkové sady velikosti m, dokud není získána nová sada s instancemi m.

Náhodný les

Náhodný les je algoritmus strojového učení pod dohledem založený na souborovém učení a vývoji původního Breimanova algoritmu pytlování. Je to skvělé vylepšení oproti pytlovaným rozhodovacím stromům, aby bylo možné sestavit více rozhodovacích stromů a agregovat je, aby se získal přesný výsledek. Breiman přidal další náhodnou variantu do postupu pytlování, čímž vytvořil větší rozmanitost mezi výslednými modely. Náhodné lesy se liší od pytlovaných stromů tím, že nutí strom používat pouze podmnožinu dostupných prediktorů, aby se rozdělili ve fázi růstu. Všechny rozhodovací stromy, které tvoří náhodnou strukturu, se liší, protože každý strom je postaven na jiné náhodné podmnožině dat. Protože minimalizuje přeplňování, má sklon být přesnější než jediný rozhodovací strom.

Rozdíl mezi pytlováním a náhodným lesem

Základy

- Oba pytle a náhodné lesy jsou algoritmy založené na souborech, jejichž cílem je snížit složitost modelů, které nadměrně odpovídají tréninkovým datům. Agregace Bootstrap, nazývaná také pytlování, je jednou z nejstarších a výkonných metod souboru, která zabraňují přeplnění. Jedná se o meta-techniku, která používá více klasifikátorů ke zlepšení prediktivní přesnosti. Sáčkování jednoduše znamená odebírání náhodných vzorků z tréninkového vzorku za účelem výměny za účelem získání souboru různých modelů. Náhodný les je algoritmus strojového učení pod dohledem založený na souborovém učení a vývoji původního Breimanova algoritmu pytlování.

Pojem

- Koncept vzorkování bootstrapu (pytlování) je trénovat spoustu nepřiřízených rozhodovacích stromů na různých náhodných podskupinách tréninkových dat, vzorkování s náhradou, aby se snížila rozptyl rozhodovacích stromů. Záměrem je kombinovat předpovědi několika základních studentů a vytvořit tak přesnější výstup. U náhodných lesů je do postupu pytlování přidána další náhodná variace, aby se mezi výslednými modely vytvořila větší rozmanitost. Myšlenka stojící za náhodnými lesy je vytvořit více rozhodovacích stromů a agregovat je tak, aby bylo dosaženo přesného výsledku.

Fotbalová branka

- Oba pytlovité stromy i náhodné lesy jsou nejčastějšími nástroji pro výuku souborů, které se používají k řešení různých problémů strojového učení. Odběr vzorků z Bootstrapu je meta-algoritmus navržený ke zlepšení přesnosti a stability modelů strojového učení pomocí kompletního učení a snížení složitosti modelů s nadměrným přizpůsobením. Algoritmus náhodných doménových struktur je velmi odolný proti nadměrnému přizpůsobení a je vhodný pro nevyvážená a chybějící data. Je to také preferovaná volba algoritmu pro vytváření prediktivních modelů. Cílem je snížit rozptyl průměrováním více hlubokých rozhodovacích stromů, vyškolených na různých vzorcích dat.

Bagging vs. náhodný les: srovnávací tabulka

souhrn

Oba pytlovité stromy i náhodné lesy jsou nejčastějšími nástroji pro výuku souborů, které se používají k řešení různých problémů strojového učení. Bagging je jedním z nejstarších a nejjednodušších algoritmů založených na souborech, které lze použít ke stromovým algoritmům pro zvýšení přesnosti předpovědí. Random Forests, na druhé straně, je dohlížející algoritmus strojového učení a vylepšená verze vzorkovacího modelu bootstrapu používaného pro regresní i klasifikační problémy. Myšlenka za náhodným lesem je vytvořit více rozhodovacích stromů a agregovat je tak, aby bylo dosaženo přesného výsledku. Náhodný les má tendenci být přesnější než jediný rozhodovací strom, protože minimalizuje přeplnění.