En datasjö är en plattform för bearbetning av data och analyser som går utöver vanliga SQL-datalager och stöder en mängd olika datatyper och analyser. Utvecklingen av lokala datasjöar har varit en stor företagsinvestering i över ett decennium. De senaste åren har dock en ny trend uppstått, Cloud Data Lake .
Nästa generations datasjö som levererar mer attraktivt pris/prestanda, en mängd olika analysmotorer och förstklassiga verktyg, allt på praktiskt taget obegränsad molnlagring, är Cloud Data Lake. Det finns ingen skillnad mellan en molndatasjö och någon annan datasjö, förutom att den lagras i molnet.
Molnlagringsplattformar, som Amazon S3, Azure Blob Storage, Google Cloud Storage och andra billigare alternativ, är idealiska för att lagra stora mängder data eftersom datasjöar i allmänhet lagrar enorma mängder information. Att använda molnlagring kräver inte att du planerar i förväg, eftersom tjänsterna är elastiska till sin natur. Dessutom behöver du bara betala för de tjänster du använder.
Syftet med en datasjö är att samla in och lagra data i sitt ursprungliga format, i ett system eller arkiv som kan hantera olika scheman och strukturer, tills informationen behövs av nedströmsprocesser.
En organisation kan använda en datasjö för att lagra rådata, förberedd data och tredjepartsdata på ett ställe. Verktygen används för att driva olika operationer som datatransformationer, rapportering, interaktiv analys och maskininlärning. Det är också nödvändigt att organisera, styra och underhålla data när man hanterar en produktionsdatasjö.
Nästan alla molnbaserade datasjöar följer en liknande process, men det finns några viktiga steg som de alla tar. Låt oss titta på var och en av dem och deras utmaningar.
Steg 1: Förstå verksamheten
- Bestäm vilka data som ska inkluderas i datasjön.
- Minska mängden lagrad data.
Steg 2: Lagra och hämta data
- Se till att ditt datainmatningssystem är snabbt.
- Analysera kostnadseffektiviteten av att lagra datasjön.
Steg 3: Förberedelse av data
- Förberedelse av data för bearbetning.
- Kostnaderna för datalagring kan minskas.
Steg 4: Analysera datasjön
- Analysera data för att hitta information.
Steg 5: Maskininlärning
- Tränar ML med högpresterande lagring.
- Effektiv lagring av lokala kopior.
LÄS MER: Hur införandet av Data Lake som en tjänst förändrar företag