Terug naar de blogs

Machine learning en business intelligence uitgelegd met hondenmemes

Shares 0
Reads 750

Author

SudhaVerslaafd aan data en business intelligence
Wanneer je theorieën ontwikkelt voordat je over data beschikt, begin je onbewust feiten te verdraaien om ze aan te passen aan je theorieën, in plaats van theorieën aan te passen aan de feiten.

Published: 26-August-2022

BI
Datawetenschap
Big Data

Inhoudsopgave

Invoering
De grote "B": Big Data
Data-analyse
Machine learning
Conclusie

Vat dit blogbericht samen met:

ChatGPT Perplexity Claude Grok

Invoering

Wist je dat?

Honden kunnen ons dopamine-, serotonine- en oxytocinegehalte verhogen, de zogenaamde 'gelukshormonen'. Hoewel aaien het beste werkt, kan zelfs het bekijken van foto's van honden helpen om deze hormonen in je lichaam vrij te maken, waardoor je je gelukkiger voelt (het werkt wel het beste als het je eigen hond is).

Om het voor de hand liggende nog niet te noemen, maar soms gebeurt het tegenovergestelde, namelijk de activering van pijnsimulatoren, wanneer we iets uitdagends proberen te lezen, vooral dingen zoals machine learning en voorspellende analyses voor de meeste mensen (soms ook voor mij).

Dus, mocht je je afvragen hoe ik van het geliefde hondenonderwerp ben afgedwaald naar de minder geliefde technische zaken, blijf dan nog even bij me.

Dit artikel gaat over het combineren van deze uitersten om de gulden middenweg te vinden voor je hersenreceptoren! Waarom zou je die gelukshormonen niet gebruiken voor meer dan eindeloos scrollen op je scherm, en ze inzetten om te leren?

De grote "B": Big Data

Laten we beginnen bij de plek waar het allemaal begon: de data zelf. Tegenwoordig is de snelheid waarmee organisaties data genereren zo hoog dat het synoniem is geworden met 'Big Data'. Technisch gezien kun je data alleen als Big Data classificeren als het de volgende kenmerken heeft (voorheen bekend als de 3 V's, nu, met de toenemende hoeveelheid data, ook wel de 5 V's):

Volume: Grote hoeveelheden data met meerdere structuren.

Snelheid: De hoge snelheid waarmee het zich opbouwt.

Betrouwbaarheid: Inconsistent en onzeker, d.w.z. meer ongestructureerde en semi-gestructureerde gegevens.

Variëteit: gegevens afkomstig uit heterogene bronnen, gestructureerd, semi-gestructureerd en ongestructureerd.

Waarde: zowel in monetaire termen voor opslag als de waarde die voortkomt uit de analyse of opslag ervan.

Door deze parameters is het lastig om de data eenvoudig te analyseren. De structuur is mogelijk niet duidelijk gedefinieerd, de data kan afkomstig zijn van meerdere bronnen en de data verliest relevantie als deze niet op het juiste moment wordt geanalyseerd. Vandaar dat data-analyse zo belangrijk is.

Bron: Wereld Economisch Forum

PS: Dit is geen hondenmeme, maar zo groot is de dataset tegenwoordig.

Data-analyse

Nee, we vragen je niet om macro's of opzoekfuncties voor ons te schrijven. Maar als je je data analyseert met Excel, loop je het risico dat de informatie verloren gaat, oftewel dat er geen eenduidige bron van waarheid is, en dat realtime analyses niet eenvoudig zijn. Maar voordat je Machine Learning voorstelt (waar we het zo meteen over zullen hebben), is er nog een alternatief: Business Intelligence-tools.

Met business intelligence-tools zoals Power BI, Qlik of Tableau kunt u uw gegevens naadloos analyseren en belangrijke inzichten verkrijgen, terwijl u dashboards creëert die gemakkelijk te begrijpen zijn.

Enkele voordelen van het gebruik van Business Intelligence-tools (elke tool heeft weer zijn eigen voordelen).

Krachtige datamodellering
Plug-and-play visualisaties
Integratie met applicaties
SaaS-aanbiedingen
Geavanceerde mogelijkheden voor datamodellering

Machine learning

De meesten van jullie zullen deze meme wel gezien hebben, waarin het gaat over het verwarren van een machine learning-algoritme, over hoe moeilijk het is om chihuahua's van muffins te onderscheiden. Het is echter wel degelijk mogelijk. Hoewel we niet dieper ingaan op hoe dat precies in zijn werk gaat, hebben we een geweldig artikel gevonden waarin wordt uitgelegd hoe je dat kunt doen .

Machine learning is een vorm van kunstmatige intelligentie waarbij je applicaties ontwikkelt die in de loop der tijd steeds beter worden naarmate er meer data beschikbaar komt. Het is de manier waarop sociale media je interacties, zoals klikken en delen, registreren om de indruk te wekken dat het internet vol staat met dingen waarin je geïnteresseerd bent en om je geboeid te houden. Het is vergelijkbaar met het trainen van een hond: door hem tijdens de training een dopaminekick te geven, zorg je ervoor dat hij dezelfde handelingen steeds opnieuw uitvoert.

Er zijn vier basistypen machine learning: supervised learning, unsupervised learning, semi-supervised learning en reinforcement learning. Afhankelijk van de data en de analysevereisten wordt een van deze vier typen toegepast.

Begeleid leren

Dit houdt in dat er getraind wordt met goed gelabelde data, waarna de testdata gebruikt wordt om te controleren hoe correct de training is. In het bovenstaande voorbeeld is het alsof de applicatie eerst apart getraind wordt met afbeeldingen van chihuahua's en muffins, voorzien van labels, en vervolgens probeert te identificeren wat ze voorstellen met behulp van de testdata. Veelvoorkomende vormen van supervised learning zijn classificatie (voor kwalitatieve of categorische data) en regressieanalyse (voor kwantitatieve data of waarden).

Onbegeleid leren

Hoewel de definitie grotendeels al in de naam zelf zit, houdt onbegeleid leren in dat een machine wordt getraind zonder geclassificeerde of gelabelde data en dus zonder enige begeleiding. Het voelt misschien alsof je een hond loslaat en hem zijn gang laat gaan, zoals in de afbeelding hieronder. Het is echter belangrijk te begrijpen dat onbegeleid leren vooral wordt gebruikt voor clustering of associatie, wat doorgaans gebeurt op basis van de kenmerken van de data zelf.

Semi-begeleid leren

Een combinatie van beide bovenstaande modellen, waarbij gelabelde data worden gebruikt voor de training, maar het model vervolgens zijn eigen gang kan gaan en zelfstandig analyses kan uitvoeren.

Versterkingsleren

Het doel van reinforcement learning is het vinden van het best mogelijke gedrag of pad dat een model in een specifieke situatie moet volgen. Bij supervised learning wordt tijdens het trainen van de data ook het antwoord bij de vraag gegeven, terwijl er bij reinforcement learning geen antwoord is; het model wordt getraind om het optimale pad te vinden (bijvoorbeeld bij schaken). Als er geen trainingsdata beschikbaar zijn, wordt het model getraind met zijn eigen data.

Conclusie

Hoewel het misschien makkelijker lijkt, vragen we je niet om hondenmemes te gebruiken voor communicatie (ook al zouden de meesten van ons dat misschien wel verkiezen), soms is het nu eenmaal makkelijker om te leren met een serotonineboost. Maar uiteindelijk wil niemand dit zijn:

Zoekt u extra ondersteuning voor uw data science- of business intelligence -projecten? Wij kunnen u helpen bij het opzetten ervan. Weet u niet goed wat u moet doen? Volg dan onze intensieve Data Discovery-workshop .