Zurück zu den Blogs

Maschinelles Lernen und Business Intelligence erklärt mit Hunde-Memes

Shares 0
Reads 750

Author

SudhaDaten- und BI-Süchtiger
Wenn man Theorien aufstellt, bevor man Daten hat, beginnt man unmerklich, Fakten so zu verdrehen, dass sie zu den Theorien passen, anstatt Theorien so, dass sie zu den Fakten passen.

Published: 26-August-2022

BI
Datenwissenschaft
Big Data

Inhaltsverzeichnis

Einführung
Das große „B“: Big Data
Datenanalyse
Maschinelles Lernen
Abschluss

Fassen Sie diesen Blogbeitrag wie folgt zusammen:

ChatGPT Perplexity Claude Grok

Einführung

Wussten Sie?

Hunde können unseren Dopamin-, Serotonin- und Oxytocinspiegel erhöhen – die sogenannten „Glückshormone“. Streicheln ist zwar am besten, aber selbst das Betrachten von Bildern kann die Ausschüttung dieser Hormone fördern und so für bessere Laune sorgen (am effektivsten wirkt es jedoch beim eigenen Hund).

Ganz abgesehen vom Offensichtlichen, passiert manchmal das Gegenteil, d. h. die Aktivierung von Schmerzstimulatoren, wenn wir versuchen, etwas Anspruchsvolles zu lesen, insbesondere Dinge wie Maschinelles Lernen und Predictive Analytics für die meisten Menschen (manchmal auch für mich).

Falls Sie sich also fragen, wie ich vom allseits beliebten Hundethema zu den weniger beliebten technischen Dingen gekommen bin: Bleiben Sie einfach noch einen Moment bei mir.

In diesem Artikel geht es darum, diese Extreme zu kombinieren, um die optimale Wirkung auf Ihre Gehirnrezeptoren zu erzielen! Warum nutzen Sie diese Glückshormone nicht für mehr als endloses Scrollen auf dem Bildschirm, sondern zum Lernen?

Das große „B“: Big Data

Beginnen wir dort, wo alles begann: bei den Daten selbst. Heutzutage ist die Geschwindigkeit, mit der Daten in Unternehmen generiert werden, gleichbedeutend mit „Big Data“. Technisch gesehen lassen sich Daten nur dann als Big Data kategorisieren, wenn sie die folgenden Eigenschaften aufweisen (früher als die 3 Vs bekannt, mittlerweile sind es aufgrund der zunehmenden Datenmenge die 5 Vs):

Volumen: Große Datenmengen mit mehreren Strukturen

Geschwindigkeit: Hohe Geschwindigkeit, mit der es sich ansammelt

Wahrhaftigkeit: Inkonsistent und unsicher, d. h. eher unstrukturierte und semistrukturierte Daten.

Vielfalt: Daten aus heterogenen Quellen – strukturiert, semistrukturiert und unstrukturiert

Wert: Sowohl in monetärer Hinsicht für die Speicherung als auch in Bezug auf den Wert, der sich aus der Analyse oder Speicherung ergibt.

Aufgrund dieser Parameter ist eine einfache Datenanalyse schwierig. Die Struktur ist möglicherweise nicht definiert, die Daten stammen unter Umständen aus verschiedenen Quellen und verlieren an Relevanz, wenn sie nicht rechtzeitig analysiert werden. Daher kommt die Datenanalyse ins Spiel.

Quelle: Weltwirtschaftsforum

PS: Das ist kein Hunde-Meme, aber so groß sind die Daten mittlerweile.

Datenanalyse

Nein, wir bitten Sie nicht, Makros oder SVERWEIS-Funktionen für uns zu schreiben. Wenn Sie Ihre Daten jedoch mit Excel analysieren, besteht die Gefahr, dass sie verloren gehen – es gibt also keine einheitliche Datenbasis – und Echtzeitanalysen sind nicht ohne Weiteres möglich. Bevor Sie aber Machine Learning vorschlagen (worüber wir gleich sprechen werden), möchten wir Sie auf eine Alternative hinweisen: Business-Intelligence-Tools.

Mit Business-Intelligence-Tools wie Power BI, Qlik oder Tableau können Sie Ihre Daten nahtlos analysieren und wichtige Erkenntnisse gewinnen, während Sie gleichzeitig leicht verständliche Dashboards erstellen.

Einige Vorteile der Verwendung von Business-Intelligence-Tools (jedes Tool hat wiederum seine Vorteile)

Leistungsstarke Datenmodellierung
Plug-and-Play-Visualisierungen
Integration mit Anwendungen
SaaS-Angebote
Erweiterte Datenmodellierungsfunktionen

Maschinelles Lernen

Die meisten von euch kennen sicher dieses Meme, in dem es darum geht, wie man einen Algorithmus für maschinelles Lernen verwirrt, indem man erklärt, wie schwierig es ist, zwischen Chihuahuas und Muffins zu unterscheiden. Es ist aber möglich. Wir gehen hier nicht näher darauf ein , wie das funktioniert, sondern haben einen tollen Artikel dazu gefunden .

Maschinelles Lernen ist eine Form der künstlichen Intelligenz, bei der Anwendungen mit zunehmenden Datenmengen immer besser werden. So erfassen soziale Medien beispielsweise Ihre Interaktionen wie Klicks und Shares, um Ihnen vorzugaukeln, das Internet sei voll von Inhalten, die Sie interessieren, und Sie so an sich zu binden. Es ist vergleichbar mit dem Training eines Hundes: Durch die Ausschüttung von Dopamin während des Trainings wird er motiviert, dieselben Aktionen immer wieder auszuführen.

Es gibt vier grundlegende Arten des maschinellen Lernens: überwachtes Lernen, unüberwachtes Lernen, halbüberwachtes Lernen und bestärkendes Lernen. Je nach Daten und Analyseanforderungen wird eine dieser vier Arten angewendet.

Überwachtes Lernen

Dabei wird zunächst mit korrekt gelabelten Daten trainiert und anschließend mit einem Testdatensatz überprüft, wie gut das Modell gelabelt ist. Im obigen Beispiel entspricht dies dem Training der Anwendung mit separaten Bildern von Chihuahuas und Muffins inklusive Label. Anschließend versucht die Anwendung, die Objekte anhand der Testdaten zu identifizieren. Gängige Arten des überwachten Lernens sind die Klassifizierung (für qualitative oder kategoriale Daten) und die Regressionsanalyse (für quantitative Daten oder Werte).

Unüberwachtes Lernen

Obwohl der Name bereits viel über unüberwachtes Lernen aussagt, wird eine Maschine ohne klassifizierte oder gelabelte Daten und somit ohne jegliche Anleitung trainiert. Es mag sich anfühlen, als würde man einen Hund von der Leine lassen und ihn einfach laufen lassen, wie in der Abbildung unten. Man muss jedoch verstehen, dass unüberwachtes Lernen hauptsächlich für Clustering oder Assoziationsanalysen eingesetzt wird, die üblicherweise anhand der Merkmale der vorhandenen Daten durchgeführt werden.

Halbüberwachtes Lernen

Eine Mischung aus beiden oben genannten Modellen, indem gelabelte Daten zum Training bereitgestellt werden, das Modell aber seinen eigenen Weg gehen gelassen wird und es selbstständig erkunden kann, um geeignete Analysen durchzuführen.

Verstärkungslernen

Ziel des Reinforcement Learnings ist es, das bestmögliche Verhalten oder den optimalen Weg in einer bestimmten Situation zu finden. Beim überwachten Lernen wird beim Training mit den Daten die Lösung zusammen mit der Frage bereitgestellt. Beim Reinforcement Learning hingegen gibt es keine Lösung; das Modell wird trainiert, den optimalen Weg zu finden (z. B. beim Schach). Falls keine Trainingsdaten vorhanden sind, wird das Modell mit eigenen Daten trainiert.

Abschluss

Auch wenn es einfacher erscheint, bitten wir Sie nicht, Hunde-Memes zur Kommunikation zu verwenden (auch wenn die meisten von uns das vielleicht bevorzugen würden), manchmal lernt man mit einem Serotoninschub einfach leichter. Aber letztendlich möchte niemand so sein:

Wenn Sie also zusätzliche Unterstützung für Ihre Data-Science- oder Business-Intelligence -Projekte benötigen, können wir Ihnen bei deren Umsetzung helfen. Oder falls Sie noch nicht genau wissen, wie Sie vorgehen sollen, empfehlen wir Ihnen unseren intensiven Data-Discovery-Workshop .