Azure Data Lake: Definition och betydelse

Table of Content

Betydelsen av Azure Data Lake
Det finns olika typer av data som kan lagras i en datasjö, inklusive:
På vilka sätt fungerar Azure Data Lake?
Varför behöver du Azure Data Lake?
Datalager
IoT-funktioner
Stöd för hybridmoln
Funktioner för företag
Implementeringshastighet

Betydelsen av Azure Data Lake

En datasjö är i grunden en plats där stora mängder rådata eller data i sitt ursprungliga format lagras. Jämfört med ett datalager som lagrar data i filer eller mappar (hierarkisk struktur) erbjuder datasjöar obegränsat utrymme, obegränsad filstorlek och ett antal sätt att komma åt data, tillsammans med de verktyg som krävs för att analysera, fråga efter och bearbeta den. Dataelement i en datasjö tilldelas unika identifierare och metadatataggar. Med hjälp av denna metod kan data hämtas från datasjön och en mindre uppsättning relevant data kan sedan analyseras. Dessutom kan data också lagras i datasjöar innan de kureras och flyttas till datalager.

Det finns olika typer av data som kan lagras i en datasjö, inklusive:

Mänskligt genererad data (t.ex. bloggar, e-postmeddelanden, tweets)
Maskindata (t.ex. loggfiler, sakernas internet, sensoravläsningar)
Försäljningsdata, lagerdata, ärendedata etc.
Visuella element, ljud och video

Syftet med en datasjö är att tillhandahålla stora mängder detaljerad källdata som sedan kan analyseras för utvinning, grafisk framställning, klustring och statistik. Företag och organisationer kan dra nytta av dataanalys genom att skapa churn-modeller, uppskatta kundbortfall, visualisera kundsegment och identifiera kundsegment.

På vilka sätt fungerar Azure Data Lake?

Data Lake-plattformen är baserad på Azure Blob Storage, en molnbaserad objektlagringslösning från Microsoft. Lösningen erbjuder billig, nivåindelad lagring med hög tillgänglighet och katastrofåterställningsfunktioner. Den är integrerad med andra Azure-tjänster , inklusive Azure Data Factory, som kan användas för att skapa och köra extraherings-, transformerings- och inläsningsprocesser (ETL) samt extraherings-, inläsnings- och transformeringsprocesser (ELT).

Den här lösningen använder klusterhanteringsplattformen YARN (Yet Another Resource Negotiator) för Apache Hadoop. Förutom servrar i Azure SQL Database och Azure SQL Data Warehouse kan den skalas dynamiskt över SQL-servrar inom datasjön.

För att använda Azure Data Lake måste du skapa ett gratis konto på Microsoft Azure-portalen. Alla Azure-tjänster är tillgängliga i portalen.

Varför behöver du Azure Data Lake?

Organisationer som vill dra nytta av stordata kan använda Azure Data Lake-lösningen . Utvecklare, dataforskare och analytiker kan få tillgång till en dataplattform som lagrar data i alla format och storlekar samt bearbetar och analyserar den på flera plattformar och programmeringsspråk. Den kan användas tillsammans med dina befintliga identitetshanterings- och säkerhetslösningar. Dessutom integreras den med andra datalager och molnmiljöer. Följande är en lista över de typer av organisationer som den kan vara användbar för:

Datalager

Lösningen kan användas för att integrera alla typer av företagsdata i ett enda datalager eftersom den stöder alla typer av data.

IoT-funktioner

Flera enheter kan strömma data till Azure-plattformen i realtid.

Stöd för hybridmoln

En lokal stordatainfrastruktur kan utökas till Azure-molnet med hjälp av Azure HDInsight-komponenten.

Funktioner för företag

Microsoft hanterar och stöder miljön, och har företagsfunktioner för säkerhet, kryptering och styrning. Azure stöder utökning av lokala säkerhetslösningar och kontroller till molnet.

Implementeringshastighet

Med Azure Data Lake-lösningen kan du börja använda den ganska snabbt. Portalen ger åtkomst till alla komponenter, och inga servrar eller infrastruktur behöver installeras eller hanteras.

Hur införandet av Data Lake som en tjänst förändrar företag

Boka ett möte

Vad är Azure Data Lake? (Behov och hur)