Rozdíl mezi HBase a Hive

HBase a Hive jsou struktury datového skladu založené na Hadoopu, které se výrazně liší, jak ukládají a dotazují data. Správa a zpracování obrovských objemů webových dat se pomocí konvenčních nástrojů pro správu databází stává stále obtížnější. To je místo, kde HBase přichází na obrázek. HBase je preferovanou volbou pro zpracování velkého množství dat. Například, pokud potřebujete filtrovat prostřednictvím obrovského úložiště e-mailů, abyste je vytáhli pro účely auditu nebo z jakéhokoli jiného důvodu, bude to pro HBase perfektní případ použití. Hive, na druhé straně, je spíš jako tradiční systém hlášení datového skladu, který běží na Hadoopu. Hive nabízí jazyk dotazu podobný SQL, který vám umožní dotazovat polostrukturovaná data uložená v Hadoopu. To vyžaduje zbytečnou snahu o psaní kódu MapReduce. Přestože se HBase i Hive používají jako úložiště dat k ukládání nestrukturovaných dat, liší se.

Co je Hbase?

HBase je open-source, non-relační, systém pro správu databází inspirovaný architekturou Big Table společnosti Google a napsaný v Javě. HBase je v zásadě sloupcová distribuovaná databáze NoSQL, která běží na vrcholu distribuovaného systému souborů Hadoop (HDFS). Je navržen a vyvinut mnoha inženýry v rámci Apache Software Foundation. Je umístěn na Apache Hadoop a je poháněn distribuovanou strukturou souborů odolnou proti chybám známou jako HDFS. Poskytuje způsob ukládání řídkých datových souborů, které jsou běžné v případech použití velkých dat. Umožňuje rychlé čtení dat s náhodným přístupem z velkého množství dat na základě klíčových hodnot. Není však určen k provádění agregace dat.

Co je Úl?

Úl není přesně databáze, ale na Hadoopu byl postaven balíček datových skladů. Úl je jiná technologie než HBase; strukturuje data v sadě tabulek, které lze spojit, agregovat a dotazovat pomocí dotazovacího jazyka s názvem Hive Query Language (HQL), který je velmi podobný SQL, který se používá pro dávkové zpracování velkých dat. Umožňuje dotazovat polostrukturovaná data uložená v Hadoop, která se nakonec promění v úlohu MapReduce, která se provádí buď lokálně, nebo v distribuovaném clusteru MapReduce. Hive je v podstatě datový skladový systém pro Hadoop, který umožňuje snadné shrnutí dat, dotazy ad-hoc a analýzu velkých datových souborů uložených v souborových systémech kompatibilních s Hadoop. Data lze číst a zapisovat z Hive a HBase a naopak. Nelze jej však použít pro zpracování dat v reálném čase.

Rozdíl mezi HBase a Hive

Technologie

- Přestože HBase a Hive jsou struktury datového skladu založené na Hadoopu, které se používají k ukládání a zpracování velkého množství dat, výrazně se liší v tom, jak ukládají a dotazují data. HBase je v zásadě sloupcově orientovaná distribuovaná databáze NoSQL, která běží na Hadoop Distributed File System (HDFS) a poskytuje způsob, jak ukládat řídké datové sady, které jsou odolné vůči chybám, které jsou běžné v případech použití velkých dat. Hive, na druhé straně, není přesně databáze, ale balíček skladování dat postavený na vrcholu Hadoop. Úl je spíš jako tradiční systém hlášení datových skladů.

Architektura

- HBase je databáze NoSQL a open-source implementace architektury Big Table společnosti Google, která sedí na Apache Hadoop a je poháněna distribuovanou strukturou souborů odolnou proti chybám známou jako HDFS. Jedná se o škálovatelné úložné řešení, které pojme doslova nekonečné množství dat. Jedná se o architekturu ukládání dat, která se používá k ukládání nestrukturovaných dat. Hive, na druhé straně, je SQL engine postavený na vrcholu HDFS a využívá MapReduce interně, což umožňuje dotazování dat uložených na HDFS pomocí dotazovacího jazyka podobného SQL s názvem HQL (Hive Query Language).

Použití

- HBase se používá k vytváření levných, flexibilních a snadno udržovatelných služeb dlaždic vrstvy - geografického informačního systému založeného na Hadoopu (HBGIS) - za účelem rozsáhlého ukládání dat. Jedná se o formát úložiště sloupců na disku, který poskytuje způsob ukládání řídkých datových sad, které jsou běžné v případech použití velkých dat. Umožňuje rychlé čtení dat s náhodným přístupem z velkého množství dat na základě klíčových hodnot. Hive, na druhé straně, je standardem pro dotazy SQL na petabajty dat v Hadoopu a poskytuje dotazovací jazyk podobný SQL s názvem HQL pro dotazování dat uložených v clusteru Hadoop.

HBase vs. Hive: Srovnávací tabulka

souhrn

Přestože HBase a Hive jsou struktury datového skladu založené na Hadoopu, které se používají k ukládání a zpracování velkého množství dat, výrazně se liší v tom, jak ukládají a dotazují data. HBase je systém správy databází orientovaný na sloupce používaný pro masivní ukládání dat a poskytuje způsob ukládání řídkých datových souborů, které jsou běžné v několika velkých případech použití dat. Hive je naproti tomu spíš jako tradiční systém hlášení datového skladu postavený na Hadoopu, který se používá ke spuštění zpracování prostřednictvím úloh plánů a pak načte výsledky do tabulky souhrnných typů, na kterou mohou klientské aplikace dále dotazovat.

Technologie