
Vat dit blogbericht samen met:
Als uw bedrijfsprocessen te maken hebben met hogere 'kosten van vertraging', dan weet u al hoe belangrijk realtime datastreaming en de analyse ervan zijn voor waardevolle zakelijke inzichten. Maar in een omgeving waar 'wendbaarheid' net zo belangrijk is als 'innovatie', wordt realtime datastreaming steeds vaker en op bewezen wijze toegepast.
Wat is streaming analytics?
Streaming analytics is het verwerken en analyseren van grote hoeveelheden 'in beweging' zijnde data, oftewel het uitvoeren van acties op realtime data met behulp van continue query's. Dit in tegenstelling tot batchgewijze dataverwerking, waarbij de informatie soms verouderd is. Met streaming analytics kunnen analytics-bedrijven profiteren van data in beweging om gemiste kansen te elimineren en nieuwe kansen te creëren.
Voordat we de traditionele en moderne architectuur van streamanalyse begrijpen, samen met de 5 beste platforms of tools voor het uitvoeren van datastreamanalyse, is het belangrijk om de toepassingsmogelijkheden van streaminganalyse voor realtime big data-analyse te begrijpen.
- Het detecteren en voorspellen van storend gedrag van elk type machine of voertuig op basis van de gegevens die worden verzonden door IoT-sensoren en -apparaten.
- Realtime aanbevelingen, gebaseerd op geografische voorkeuren, voor gebruikers die browsen via de mobiele of webinterface van een e-commercewebsite, streaming video-app of reisportal.
- Online gamingbedrijven bieden realistische en boeiende ervaringen in een virtuele wereld.
- Financiële portefeuillebeheerders passen hun posities aan op basis van realtime risicoanalyses van gegevensstromen van de beurs.
- Sociale media en andere platforms voor gebruikersinteractie filteren dagelijks de triljoenen bytes aan data die gegenereerd worden om gebruikers te beschermen tegen content die als frauduleus, pestend, gewelddadig of op welke manier dan ook aanstootgevend kan worden beschouwd.
- Continue monitoring van de gezondheidstoestand van de patiënt om tijdige behandeling te garanderen.
- Winkel- en horecabedrijven kunnen snel reageren op vragen van klanten, zoals over verse bestellingen, toevoegingen aan het winkelmandje, retourzendingen of klachten.
De traditionele aanpak bestaat uit het combineren van verschillende tools om het gewenste resultaat te bereiken. Dit omvat doorgaans vier stappen. Ten eerste moeten de gegevens sequentieel en zonder onderbrekingen vanuit de bron worden gestreamd; een streamprocessor zorgt hiervoor.
Ten tweede moeten de gegevens uit deze meerdere streamprocessors worden geëxtraheerd, getransformeerd en vervolgens geladen - dit gebeurt via een ETL-tool.
Ten derde worden de gegevens in een streaming dataopslag geladen, meestal een data lake vanwege de lage kosten en flexibiliteit in vergelijking met andere opties.
Tot slot, en misschien wel de meest cruciale stap: een analysesysteem om deze enorme hoeveelheid data te interpreteren. Zakelijke gebruikers willen inzichten na analytische/statistische bewerkingen zoals steekproeven, clustering, correlaties en meer.
Deze aanpak vereist constante monitoring van de servers, het in de gaten houden van software-updates of -installaties en het beheren van de op- en afschaling. Het opzetten van de basisconfiguratie en het ontvangen van de datastromen kost aanzienlijk veel tijd.
Wil je optimaal gebruikmaken van realtime data?
Gebruik oplossingen voor streamanalyse om gegevens beter te organiseren, bruikbaar te maken en toegankelijk te maken vanaf het moment dat ze worden gegenereerd.
PRAAT MET ONZE EXPERTEN
De moderne benadering van datastream-analyse sluit beter aan bij de bedrijfswaarden van het leveren van snelle en zelfservicefunctionaliteiten, terwijl de afhankelijkheid van de IT-afdeling voor elke kleine of alledaagse taak wordt verminderd.
Deze platforms bieden een totaaloplossing voor het verwerken, opslaan en omzetten van gebeurtenisstromen in analyseklare data en zakelijke inzichten. Deze krachtige in-memory engines zijn beschikbaar als PaaS-aanbiedingen, waardoor u zich geen zorgen hoeft te maken over het aanschaffen van hardware of het beheren van servers.
Op het gebied van beveiliging scoren deze platforms hoog, omdat ze geen gegevens opslaan. De meeste verwerking vindt namelijk in het geheugen plaats en zelfs dan zijn de gegevens versleuteld. Qua flexibiliteit bieden ze gebruikers de mogelijkheid om de functionaliteit van hun omgeving uit te breiden met open-source en tools van derden.
Wat de prestaties betreft, bieden de toonaangevende streaming dataplatformen onbeperkte schaalbaarheid om miljoenen streams of gebeurtenissen per seconde te verwerken met ultralage latentie.
Azure Stream Analytics:
Dit aanbod van Microsoft, de toonaangevende leverancier van bedrijfssoftware, is een van de meest krachtige streaming-analyseplatforms. Azure Stream Analytics combineert de kracht van SQL, C# en JavaScript met de ingebouwde machine learning-mogelijkheden, waardoor bedrijven multi-stream data parallel en efficiënt kunnen analyseren.
Hieronder ziet u de architectuur achter de werking van Microsoft Azure Stream Analytics:
Bron: Microsoft Docs Simpel gezegd bestaat het uit: 1) Invoer van Azure Event Hub, Azure IoT Hub of Azure Blob Storage. 2) Een SQL-query waarmee de binnenkomende datastromen over een bepaalde periode eenvoudig kunnen worden gefilterd, samengevoegd, gesorteerd en geaggregeerd. 3) De uitvoer: een of meerdere uitvoerresultaten van de verwerkte gegevens, die voor diverse toepassingen geschikt zijn.
Amazon Kinesis
Amazon Kinesis is een platform dat perfect aansluit op het toonaangevende cloudplatform AWS, met ondersteuning voor andere cloudplatformen. Het maakt het streamen van big data met AWS naadloos. Het beste eraan is de ondersteuning voor open-source Java-bibliotheken en een SQL-editor.
De flexibiliteit van Amazon Kinesis stelt bedrijven in staat om in eerste instantie basisinzichten en -rapporten op te zetten en later, afhankelijk van de expertise, op te schalen naar de inzet van machine learning-modellen voor het identificeren van patronen en het automatiseren van inzichten.
Hier ziet u een typische architectuur voor datastream-analyse met Amazon Kinesis.
Bron: AWS Google Cloud DataFlow
Dit is een recente toevoeging aan Google Stream Analytics. Het platform is uitgerust met Python 3 en de open-source Apache Beam SDK, waardoor het zowel streams als batchdata kan verwerken. De combinatie van 1) Apache Beam en Python 3 voor het definiëren van datapijplijnen en het extraheren van data uit verschillende Edge-bronnen, 2) Pub/Sub-gebaseerde data-invoer en 3) Google BigQuery voor het realtime extraheren van relevante inzichten, maakt het tot een van de beste tools voor stream analytics. Deze gefragmenteerde provisioning elimineert de complexiteit van de toegankelijkheid en maakt de data beschikbaar voor zowel data-engineers als analisten.
Hier ziet u een typische architectuur voor datastream-analyse met Google Cloud DataFlow.
Bron: Google Cloud Apache Kafka
Apache Kafka kan zowel on-premise als in de cloud worden geïmplementeerd. Het is een keten van gedistribueerde servers en clients die communiceren via het TCP-netwerkprotocol. Het platform is relatief nieuw, maar wordt al veelvuldig genoemd als een van de krachtige tools voor streamanalyse vanwege de mogelijkheid om data naar andere data-analyse- of BI-platformen te verzenden. Het wordt voornamelijk gebruikt in de backend voor de integratie van microservices en alle belangrijke realtime streaming dataplatformen.
Het systeem draait als een cluster met een aantal servers, verspreid over datacenters. De datastromen van deze servers worden gecategoriseerd en opgeslagen als 'topics', die elk een unieke identificatiecode hebben bestaande uit een sleutel, een waarde en een tijdstempel van de stroom.
Er zijn vier kern-API's; deze afbeelding laat ze alle vier zien:
Bron: Apache Kafka De Producer API wordt gebruikt om de datastroom naar een of meer Kafka-topics te publiceren.
Met de Consumer API kunnen apps zich abonneren op een aantal 'topics' en de stroom records verwerken die aan hen worden geleverd.
De Streams API stelt apps in staat om als streamprocessor te fungeren en de invoerstream om te zetten in uitvoeronderwerpen of -resultaten.
Connector API bouwt herbruikbare producers of consumers die 'topics' verbinden met bestaande apps en datasystemen.
Sneeuwvlok-sneeuwpijp:
De laatste op onze lijst is een aanbod van een platform dat onlangs veel aandacht trok met zijn grootste tech-IPO ooit, en terecht . Het platform biedt krachtige, ongeëvenaarde mogelijkheden in combinatie met aanzienlijke kostenvoordelen.
Snowflake Snowpipe automatiseert het laden van datastromen naar de S3-stagingomgeving en vervolgens naar Snowflake. Het creëert ook aparte servers voor de binnenkomende stromen vanuit de klantomgeving om de werklast te isoleren, en u betaalt alleen voor de servertijd die u gebruikt.
Hier ziet u een typische architectuur voor datastream-analyse met Snowflake Snowpipe.

Transformeer uw streaminggegevens.
Ervaar realtime, bruikbare zakelijke inzichten op basis van streaming data en automatiseer acties om de wendbaarheid van moderne bedrijven te vergroten.
NEEM CONTACT OP
Er zijn talloze andere platforms, zoals IBM Stream Analytics, Apache Storm en Apache Flink, die krachtige architecturen bieden voor het verwerken, transformeren en analyseren van binnenkomende datastromen in realtime. Het belangrijkste is de waarde die Stream Analytics genereert voor bedrijven van elke omvang – of het nu gaat om een complexe, geografisch verspreide organisatie of een moderne tech-startup die snel op klantvragen moet reageren.
Als u hulp nodig hebt bij het identificeren van de beste Stream Analytics-technologie voor uw organisatie of bij de implementatie ervan, boek dan een gratis sessie met onze Solution Architects om het proces te versnellen.