The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

19.10.2020 | 11 Minuten Lesezeit

Dieser Artikel begleitet meinen Vortrag The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren, den ich am 20.10.2020 auf der data2day gehalten habe.

Datenvisualisierung ist ausschlaggebend für Verständnis und Kommunikation

Datenvisualisierung ist ein entscheidender Teil jeder Analyse. Sei es, „für sich selber“, um Zusammenhänge und Ergebnisse besser zu verstehen oder um Ergebnisse anderen zu präsentieren und zu „verkaufen“. Denn gute Graphen machen Daten intuitiv zugänglich, sie erzählen eine Geschichte und zeigen deutlich Muster, Trends oder Ausreißer. Deshalb ist die Explorative Datenanalyse (EDA) normalerweise der erste Schritt jeder Datenanalyse und -modelierung. Denn nur, wenn wir unsere Daten verstehen, können wir passende Vorverarbeitungsschritte und Analysemethoden, Statistiken oder Deep Learning auswählen. Und da Menschen Zahlen deutlich besser visuell in einem Graphen begreifen können als in Tabellen, sollten wir die Macht von Datenvisualiserungen nutzen! Vor allem, wenn wir Visualisierungen für Berichte oder Veröffentlichungen erstellen, ist es entscheidend, dass sie sowohl faktisch korrekt, als auch optisch ansprechend sind.

Data visualization is part art and part science. The challenge is to get the art right without getting the science wrong and vice versa. (Wilke 2019)

Ziel einer guten Abbildung ist es, dass sie auf einen Blick verständlich ist und eine eindeutige Aussage präsentiert. Schlechte Graphen reichen von einfach nur häßlich bis hin zu (absichtlich?) irreführend oder gar falsch. In diesem Artikel erkläre ich, was gute Graphen (nicht) ausmacht und wie wir sie mit Hilfe der Grammar of Graphics erstellen können. Und ich stelle einige der am häufigsten verwendeten Diagrammarten vor, zusammen mit Negativbeispielen „aus der Wildnis“.

Der komplette Inhalt laden

Was macht einen guten Graphen aus?

1. Daten

Der wichtigste Aspekt und Grundlage jedes Graphen sind die verwendeten Daten! Sie müssen korrekt sein und wir sollten immer überprüfen, ob eventuell (Mess-) Fehler vorliegen. Wie zum Beispiel in dieser Abbildung:

https://www.reddit.com/r/shittydataisbeautiful/comments/fhz3b9/the_weather_network_seems_to_know_something_the/

Offensichtlich liegt hier ein Fehler in der Vorhersage vor, denn Temperaturen von -100°C, noch dazu an einem isolierten Tag, sind wirklich sehr unwahrscheinlich! Und nicht nur zeigt dieser Graph offensichtlich falsche Daten; durch diesen Ausreißerwert wird der Rest der Daten in der Darstellung so stark gestaucht, dass die Kurven nicht mehr gut zu sehen sind und Werte verschiedener Tage nur noch schwer verglichen werden können.

Zu den Best Practices der Datenvisualisierung gehört es außerdem, die Datenquelle anzugeben.

2. Übersichtlichkeit & Farben

Ein guter Graph ist gerade so komplex, wie nötig, um seine Message auf einen Blick zu transportieren; er sollte übersichtlich sein und keinen „Chartjunk„*enthalten. Als Chartjunk bezeichnete Edward Tufte alles an visuellen Elementen in einer Abbildung, die entweder nicht nötig sind, um den Graphen zu verstehen oder sogar von der zentralen Information ablenken (Tufte 1983). Drei Beispiele für Abbildungen mit Chartjunk sind in dieser Abbildung zu sehen:

http://www.exceluser.com/blog/1133/good-examples-of-bad-charts-chart-junk-from-a-surprising-source.html

Jedem, der regelmäßig Zeitungen liest, wird auffallen, dass Chartjunk extrem häufig vorkommt und besonders gerne von Populärmedien verwendet wird, um eine Abbildung aufzupeppen. In vielen Fällen kann man harmlosen Chartjunk als „künstlerische Freiheit“ durchgehen lassen, je seriöser man eine Abbildung aber gestalten möchte, desto mehr sollte man auf ihn verzichten.

Zur Übersichtlichkeit gehört auch die Wahl geeigneter Farben und deutlicher Kontraste. Zu viele, bunte oder grelle Farben machen einen Plot visuell abstoßend und lassen ihn überladen und verwirrend aussehen. Außerdem sollte man bei der Farbauswahldarauf achten, dass es auch Farbenblinden möglich ist, den Graph zu lesen. Dazu sollte sowohl eine geeignete Farbpalette genutzt werden, als auch redundante Feature, wie unterschiedliche Formen, Muster oder Linienarten, die es erlauben, den Graphen auch ohne Farbinformationen zu lesen.

3. Beschriftung & Achsen

Einen guten Graphen kann man auf einen Blick verstehen, das heißt, er sollte selbsterklärend sein. Essenziell dafür ist die korrekte Beschriftung mit Titel, Achsenlabeln (mit Einheiten!), Legenden und Bildunterschriften! Auch die Anzahl der Achsen-Ticks sollte passend gewählt werden. Und vor allem: die Abstände zwischen Achsen-Ticks bei numerischen Werten muss regelmäßig sein, das heißt, auf gar keinen Fall darf der Abstand zwischen den Ticks variieren, wie auf der y-Achse in dieser furchtbaren Abbildung zu sehen ist:

https://www.reddit.com/r/shittydataisbeautiful/comments/fvjhdp/the_yaxis_on_this_graph_of_coronavirus_cases

The Grammar of Graphics

Die wichtigsten Aspekte guter Graphen kennen wir nun. Aber wie erstellt man gute Graphen am besten?
Es gibt viele Möglichkeiten, Graphen zu generieren: von Hand zeichnen, mit Excel oder mit verschiedenen Programmiersprachen, wie R, Python, Java, etc. Der beste Weg, wenn auch mit einer höheren Einstiegshürde verbunden, ist das Nutzen von Programmiersprachen. Denn damit gelingt es am einfachsten, sicherzustellen, dass die Daten sauber vorliegen und nachvollziehbar verarbeitet wurden. Mit Excel können zwar auch Graphen erstellt werden, allerdings hat das Programm einige Tücken: Unter Anderem formattiert Excel Zellen automatisch, was zu Fehlern in den Daten führen kann. Und es macht das Reproduzieren von Abbildungen sehr schwer, denn es wird nicht dokumentiert, welche Schritte in welcher Reihenfolge manuell durchgeführt wurden.

R und Python sind besonders gut geeignet, denn sie sind die am meisten benutzten Programmiersprachen für die Generierung von Abbildungen und bieten Pakete, mit denen das Analysieren von Daten und das Erstellen von Graphen sehr effizient möglich ist. Hier stelle ich die (meiner Meinung nach) beste Variante vor, Graphen strukturiert zu generieren: mit den Paketen ggplot2 für R oder plotnine für Python (basiert auf ggplot2).

Mit ggplot2 hat Hadley Wickham eine Implementierung der 1999 von Leland Wilkinson beschriebenen Grammar of Graphics für die Programmiersprache R geschaffen, die ich unten an Codebeispielen zeigen werde (Wilkinson et al. 1999; Wickham 2010). Diese Grammar of Graphics beschreibt ein Framework für die strukturierte Erstellung von Graphen, bestehend aus aufeinander aufbauenden Schichten (Wickham and Grolemund 2017). Nachfolgend zeige ich für ein paar Beispiele. Eine Übersicht über alle möglichen Optionen sind im ggplot2-Cheatsheet zu finden.

1. Daten

Auch für die Grammar of Graphics sind Daten das wichtigste und grundlegende Element. Hier verwende ich einen Beispieldatensatz mit verschiedenen Größen-Messwerten dreier Pinguinarten (Gorman 2014). Die zentrale Funktion des ggplot2-Pakets heißt ggplot() und nimmt einen Datensatz als Input. Diese Funktion erstellt zunächst ein leeres Koordinatensystem, auf das wir mit den nachfolgenden Schichten aufbauen und so Schritt für Schritt unseren Graphen erstellen, verändern und erweitern können.

2. Ästhetiken

Als zweites Argument definieren wir in der ggplot()-Funktion die Ästhetiken (aes()). Ästhetiken beschreiben graphische Elemente, wie X- und Y-Werte, Größe, Farben, Formen, etc. Für ein einfaches Punktdiagramm müssen wir mindestens die X- und Y-Positionen angeben. Dafür müssen wir uns zunächst überlegen, welche Daten (Variablen) wir abbilden möchten. Zum Beispiel hier die Pinguin-Schnabellänge auf der X-Achse gegen Flossenlänge auf der Y-Achse:

penguins %>%
   ggplot(aes(x = bill_length_mm, 
              y = flipper_length_mm))

Auch mit gesetzten Ästhetiken bekommen wir noch keinen richtigen Graphen angezeigt, dafür benötigen wir die nächste Schicht, die sogenannten Geometriken. Da Ästhetiken und Geometriken sehr eng miteinander in Zusammenhang stehen und teilweise gegenseitig voneinander abhängen, zeige ich zusätzliche Aesthetiken weiter unten.

3. Geometriken

Geometrische Objekte oder Geometriken beschreiben wie die Daten, die wir in den Ästhetiken festgelegt haben, dargestellt werden sollen. Das kann zum Beispiel ein Punktdiagramm (geom_point()) oder ein Liniendiagramm (geom_line()) sein, dass in dieser Schicht nun auch als Graph ausgegeben wird:

penguins %>%
   ggplot(aes(x = bill_length_mm, 
              y = flipper_length_mm)) +
     geom_point(alpha = 0.7)

penguins %>%
   ggplot(aes(x = bill_length_mm, 
              y = flipper_length_mm)) +
     geom_line()

Ein Liniendiagramm ist hier allerdings nicht sinnvoll für die Daten; mehr dazu im Abschnitt Diagrammtypen – Liniendiagramme. Weitere Geometriken sind unter anderem Balkendiagramme (geom_bar()) oder Box-Plots (geom_boxplot()). Geometriken und Ästhetiken hängen insofern voneinander ab, dass der Datentyp, den die Variablen der Ästhetiken haben, nur bestimmte Geometriken zulässt oder sinnvoll macht. So bieten sich Punkt- und Liniendiagramme für kontinuierliche X- und Y-Achsen an (rationale Zahlen, Zeiten oder Datum). Für Balkendiagramme müssen die Daten der X-Achse kategorisch sein. Bevor ich im Zuge späterer Schichten noch einmal auf weiter auf Geometriken und Aesthetiken eingehen werde, will ich zunächst Facetten vorstellen.

4. Facetten

Facetten bedeutet das Aufteilen eines Graphen in mehrere Subplots. In unserem Beispieldatensatz sind Messwerte von drei verschiedenen Pinguinarten gesammelt. Das Punktdiagramm oben erlaubt uns allerdings keine Unterscheidung der drei Arten, was aber natürlich eine wichtige Zusatzinformation in den Daten ist. Deshalb sollten wir diese in unserem Graphen darstellen. Eine Möglichkeit dies zu tun, ist mittels Facetten:

penguins %>%
   ggplot(aes(x = bill_length_mm, 
              y = flipper_length_mm)) +
     geom_point(alpha = 0.7) +
     facet_wrap(vars(species), ncol = 3)

Nun sehen wir die Punkte für jede Pinguinart in einem eigenen Subplot. Facetten können für ein oder mehrere kategorische Variablen erstellt werden, wobei mehr als zwei Facetten in der Regel unübersichtlich werden. Per default verwendet ggplot2 die selben X- und Y-Achsen-Dimensionen, um die Subplots vergleichbar zu machen. Allerdings ist es mit Facetten in diesem Fall nicht ganz so einfach, die drei Arten zu vergleichen. Alternativ können wir die drei Pinguinarten mittels verschiedener Farben sichtbar machen. Diese Möglichkeit fällt unter Skalierung.

5. Skalierung

Mit Skalierung können wir zusätzlich zu den beiden X- und Y-Dimensionen weitere Dimensionen darstellen, ähnlich wie wir das bereits bei den Pinguinarten mit Facetten getan haben. Wir können zum Beispiel eine Farbskalierung wählen. In ggplot2 werden Skalierungen anhand zusätzlicher Variablen in den Ästhetiken angegeben:

penguins %>%
   ggplot(aes(x = bill_length_mm, 
              y = flipper_length_mm,
              color = species)) +
     geom_point(alpha = 0.7)

Die entsprechende Legende wird automatisch erstellt. Andere Skalierungen sind Größenskalierung, Punkt- oder Linienarten. Nicht alle Skalierungen sind für jeden Datentyp geeignet. Während Farben auch kontinuierliche rationale Zahlen darstellen können, sind Punkt- und Linienarten nur für eine begrenzte Anzahl von Kategorien möglich.

penguins %>%
   ggplot(aes(x = bill_length_mm, 
              y = flipper_length_mm,
              color = sex,
              size = body_mass_g)) +
     geom_point(alpha = 0.7) +
     facet_wrap(vars(species), ncol = 3)

So können im Prinzip beliebig viele Dimensionen der Daten in einem Graphen dargestellt werden, auch wenn mehr als vier Dimensionen den Graphen in der Regel zu chaotisch und unübersichtlich wirken lassen.

Eine weitere Art der Skalierung ist die Achsenskalierung. So können wir zum Beispiel die Achsen umdrehen, so dass die Werte nicht wie per default von links/unten = niedrig nach rechts/oben = hoch dargestellt werden, sondern die hohen Werte links/unten stehen:

penguins %>%
   ggplot(aes(x = bill_length_mm, 
              y = flipper_length_mm)) +
     geom_jitter(alpha = 0.5) +
     facet_wrap(vars(species), ncol = 3) +
     scale_x_reverse() +
     scale_y_reverse()

6. Statistische Transformationen

Stats, kurz für statistische Transformationen, werden verwendet, um statistische Werte oder Berechnungen einem Plot hinzuzufügen oder diese zu definieren. Das können zum Beispiel Mittelwert, Median, Konfidenzintervalle, Standardabweichungen, usw. sein.

In dieser Abbildungen ist ein Balkendiagramm zu sehen, dass einen numerischen Wert zeigt:

penguins %>%
   ggplot(aes(x = species, 
              y = mean_bmg, fill = sex)) +
     geom_bar(stat = "identity", position = "dodge")

Da die Default-Statistik für Balkendiagramme in ggplot2 „Anzahl (count)“ ist, können dieses Verhalten mit dem stat „identity“ ändern.

Eine andere häufig verwendete Statistik sind Smoothed Conditional Means, um zum Beispiel den Zusammenhang von X- und Y-Variablen mit Glättungslinien und entsprechenden Fehlerkorridoren zu zeigen:

penguins %>%
   ggplot(aes(x = bill_length_mm, 
              y = flipper_length_mm)) +
     geom_point(alpha = 0.7) +
     facet_wrap(vars(species), ncol = 3) +
     stat_smooth(method = 'loess')

7. Koordinatensysteme

Die letzte Schicht in der Grammar of Graphics sind Koordinatensysteme. Koordinatensysteme definieren, wie die Achsen unseres Graphen angeordnet werden sollen. Meistens verläuft die X-Achse horizontal und die Y-Achse vertikal (kartesisches Koordinatensystem); es gibt aber auch Fälle in denen wir radiale oder gekrümmte Achsen haben, zum Beispiel in einem Tortendiagramm oder in einer Kartendarstellung. So ist ein Tortendiagramm nichts anderes, als ein Balkendiagramm, in dem wir das Koordinatensystem geändert haben:

penguins %>%
   ggplot(aes(x = "", y = percentage,
              fill = sex)) +
     facet_wrap(vars(species), nrow = 1) +
     geom_bar(stat = "identity", alpha = 0.8) +
     coord_polar("y", start = 0)

Diagrammtypen

Mit dieser Grammar of Graphics können nun alle gängigen Diagrammtypen einfach und flexibel generiert und erweitert werden. Die am häufigsten verwendeten Diagrammtypen sind:

Punktdiagramme

Punktdiagramme werden häufig dann verwendet, wenn wir numerische X- gegen numerische Y-Werte darstellen und somit ihre Korrelation zeigen wollen. Punkte können verschiedene Farben, Formen und Größen haben. In der Regel sind Punktdiagramme leicht zu verstehen, sie können aber auch unübersichtlich werden, wenn es zu viele überlappende Punkte gibt.

Liniendiagramme

Liniendiagramme sind meist ähnlich zu Punktdiagrammen, mit dem Unterschied, dass die (imaginären) Punkte mit Linien verbunden sind. Diese verbundenen Linien repräsentieren die gedachten Zwischenwerte zwischen zwei Messpunkten; Punkte sollten deshalb auch nur dann verbunden werden, wenn diese Annahme gegeben ist! Aus diesem Grund ist ein Liniendiagramm für das oben genannte Beispiel auch nicht sinnvoll, denn wir zeigen unabhängige Messwerte einzelner Individuen. Liniendiagramme sind vor allem für Zeitreihen sinnvoll.

Balkendiagramme

Balkendiagramme zeigen entweder die Anzahl von Ereignissen oder sie zeigen einen numerischen Wert Y für den Vergleich zwischen verschiedenen Kategorien. Insbesondere bei Balkendiagrammen finden wir viele Negativbeispiele mit irreführenden Darstellungen (vermutlich weil sie so leicht mit einfachsten Zeichenprogrammen ohne jegliche Datengrundlage zu erstellen sind). Hier zwei sehr plakative Negativbeispiele zur Coronavirus-Situation: in beiden Beispielen passen die Balkenhöhen nicht zu den Werten auf der (nicht dargestellten) Y-Achse!

https://viz.wtf/post/625905143078141953/i-dont-even-know-where-to-begin-with-this-one

https://viz.wtf/post/625633360933453824/covid19-report-in-brazil

Eine Sammlung weiterer häufig verwendeter Diagrammtypen mit Abbildungen und Negativbeispielen sind in den Folien zu diesem Vortrag zu finden.

Referenzen

Gorman, Tony D. AND Fraser, Kristen B. AND Williams. 2014. “Ecological Sexual Dimorphism and Environmental Variability Within a Community of Antarctic Penguins (Genus Pygoscelis).” PLOS ONE 9 (3): 1–14. https://doi.org/10.1371/journal.pone.0090081 .

Tufte, Edward R. 1983. The Visual Display of Quantitative Information. Graphics Press.

Wickham, Hadley. 2010. “A Layered Grammar of Graphics.” Journal of Computational and Graphical Statistics 19 (1): 3–28. https://doi.org/10.1198/jcgs.2009.07098 .

Wickham, Hadley, and Garrett Grolemund. 2017. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 1st ed. O’Reilly Media, Inc. https://r4ds.had.co.nz/ .

Wilke, C. O. 2019. Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures. O’Reilly Media. https://books.google.de/books?id=L3ajtgEACAAJ .

Wilkinson, L., D. Wills, J. Chambers, R. Dubbs, W. Eddy, A. Norton, and W. Haerdie. 1999. The Grammar of Graphics. Statistics and Computing. Springer New York. https://books.google.de/books?id=5boZAQAAIAAJ .

War dieser Beitrag hilfreich?

Beitrag teilen

Gefällt mir

Blog-Autor*in

Shirin Elsinghorst

Team Lead & Consultant Data/AI

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Shirin Elsinghorst

Simple Deep Learning mit Amazon SageMaker

In unserem neuesten codecentric.AI-Video geben wir eine kurze Einführung in Amazon SageMaker und zeigen, wie man damit schnell und einfach ein Bildklassifikationsmodell trainieren kann, das Brillenträger von Nicht-Brillenträgern unterscheidet. Mit...

Big Data
AWS
Cloud
Data
Machine Learning
Künstliche Intelligenz
Python

11.7.2018 | 5 Minuten Lesezeit

Shirin Elsinghorst

Oliver Moser

Vergleich von Text-to-Speech-Systemen

Computer haben angefangen mit uns zu reden! Dahinter stecken sogenannte Text-to-Speech-(TTS-)Systeme. Durch neuronale Netze, Deep Learning und viele Trainingsdaten sind die in den letzten Jahren immer besser und besser geworden. In manchen Fällen kann...

Data

28.6.2018 | 5 Minuten Lesezeit

Shirin Elsinghorst

rOpenSci Unkonferenz 2018 und eine Einführung in TensorFlow Probability...

Am 21. und 22. Mai hatte ich die Ehre, an der rOpenSci Unkonferenz in Seattle teilnehmen zu dürfen. Es war ein großartiges Event, bei dem ich viele tolle Menschen kennenlernen konnte. Hier berichte ich über das Event und das Projekt, an dem ich dort ...

Data
Machine Learning

18.6.2018 | 6 Minuten Lesezeit

Shirin Elsinghorst

Künstliche Intelligenz Initiative: „codecentric.AI“

Im April 2018 haben wir bei codecentric eine AI (Artificial Intelligence bzw. KI = künstliche Intelligenz) Initiative gestartet. Unter dem Projektnamen „codecentric.AI “ werden wir versuchen zu zeigen, was heute mit künstlicher Intelligenz möglich ist...

Computer Vision
Künstliche Intelligenz
Python

10.4.2018 | 3 Minuten Lesezeit

Oliver Moser

Shirin Elsinghorst

Deep Learning Workshop at codecentric AG in Solingen

Big Data – a buzz word you can find everywhere these days, from nerdy blogs to scientific research papers and even in the news. But how does Big Data Analysis work, exactly? In order to find that out, I attended the workshop on “Deep Learning with Keras...

Big Data
Data
AI
Machine Learning

6.2.2018 | 6 Minuten Lesezeit

Shirin Elsinghorst

Looking beyond accuracy to improve trust in machine learning

Traditional machine learning workflows focus heavily on model training and optimization; the best model is usually chosen via performance measures like accuracy or error and we tend to assume that a model is good enough for deployment if it passes certain...

Data
Machine Learning
Python

9.1.2018 | 11 Minuten Lesezeit

Shirin Elsinghorst

Explore Predictive Maintenance with flexdashboard

Predictive Maintenance Predictive Maintenance is an increasingly popular strategy associated with Industry 4.0; it uses advanced analytics and machine learning to optimize machine costs and output (see Google Trends plot below). A common use case for...

Big Data
Data
Machine Learning

2.11.2017 | 3 Minuten Lesezeit

Shirin Elsinghorst

Data Science for Fraud Detection

What is fraud and why is it interesting for Data Science? Fraud can be defined as “the crime of getting money by deceiving people” (Cambridge Dictionary); it is as old as humanity: whenever two parties exchange goods or conduct business, there is the...

Big Data
Data
Machine Learning

5.9.2017 | 10 Minuten Lesezeit

Shirin Elsinghorst

Social Network Analysis and Topic Modeling of codecentric’s Twitter friends...

Recently, Matthias Radtke has written a very nice blog post on Topic Modeling of the codecentric Blog Articles , where he is giving a comprehensive introduction to Topic Modeling. In this article I am showing a real-world example of how we can use Data...

Open Source
AI
Data
Data Science

24.7.2017 | 8 Minuten Lesezeit

Shirin Elsinghorst

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Bessere SQL-Datenpipelines mit dbt

SQL ist weiterhin aus der Datenanalyse nicht wegzudenken – es ist vergleichsweise einfach zu lernen und Anwender können es ohne zusätzliche Werkzeuge auf einer Datenbank ausführen. Entsprechend ist es bei vielen Datenanalysten und Engineers beliebt. ...

Data

22.2.2023 | 2 Minuten Lesezeit

Matthias Niehoff

Data Governance: Wie können wir Daten demokratisieren?

“Data is the new oil” ist inzwischen ein alter Hut. Jedes Unternehmen versucht, Daten besser zu nutzen, sei es, um die eigenen Prozesse zu optimieren, die Kunden besser zu verstehen oder neue Produkte anzubieten. Dabei stellen fast alle fest: Wir haben...

Data Science

23.11.2022 | 2 Minuten Lesezeit

Matthias Niehoff

Streaming Wikipedia mit Apache Kafka

Apache Kafka ist in aller Munde und entwickelt sich im Kontext von verteilten Systemen zum De-facto-Standard als Plattform für Event Streaming. Im Rahmen unserer OffProject Time (Weiterbildungszeit) haben wir uns die Plattform auch näher angeschaut und...

Kotlin
Data
Java
Messaging
Spring

15.8.2022 | 10 Minuten Lesezeit

Christoph Metzger

Felix Rieß

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

In diesem Artikel möchte ich euch mit einem Python Jupyter Notebook zeigen, wie ihr Anwendungsfälle der Tourenoptimierung inklusive Nebenbedingungen lösen und visualisieren könnt. Außerdem zeige ich euch, wie ihr mit OpenStreetMaps die Route zwischen...

Data

21.6.2022 | 7 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

In diesem Artikel möchte ich euch zeigen, wie ihr Probleme der Tourenoptimierung in einem Python Jupyter Notebook lösen und visualisieren könnt. Am Beispiel eines Fahrradkurierdienst zeige ich außerdem, wie das Grundproblem um gängige Nebenbedingungen...

Data

16.6.2022 | 9 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung (1/3)

In vielen Unternehmen fallen täglich verschiedene Transportprozesse an. Klassische Beispiele sind die Optimierung von Warenein- und ausgängen, die Einsatzplanung von Servicetechnikern oder die optimale Reihenfolge der Auslieferung bei Lieferdiensten....

Data

12.6.2022 | 8 Minuten Lesezeit

Lukas Heidemann

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Die Qualität bzw. Nützlichkeit von Machine-Learning-Modellen lässt sich mit Hilfe von Testdaten und Metriken bewerten. Allerdings in welchem Umfang? Manuell, automatisiert, einmalig, regelmäßig? Manuell lassen sich die ersten Modelle als Ergebnis eines...

Data
Machine Learning
Softwareentwicklung
CI/CD

7.12.2021 | 7 Minuten Lesezeit

Berthold Schulte

Schnelles Training eines Recommendation-Modells durch BigQuery ML

Machine Learning (ML) kann nur durch Modelle in der Produktion Business Value erzeugen. Allerdings kann die Zeitspanne zwischen der Entwicklung der nächsten Iteration eines Modells und dessen Einsatz in einer Produktionsumgebung massiv sein. Dies gilt...

Accelerate
Cloud
Data
Google Cloud
Machine Learning

26.7.2021 | 11 Minuten Lesezeit

Niklas Haas

Timo Böhm

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben...

Heutzutage steht fast alles, was mit den Labels „künstliche Intelligenz (KI)“ oder „Machine Learning (ML)“ versehen ist, für Fortschritt. Seltsamerweise schließt diese Assoziation jedoch häufig die Themen Daten und Dateninfrastruktur nicht ausreichend...

Kultur
Data
Machine Learning

21.6.2021 | 12 Minuten Lesezeit

Marcel Mikl

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Bei klassischen Machine-Learning-(ML-)Projekten beschäftigen sich Data Scientists häufig längere Zeit (mehrere Monate) mit der Entwicklung eines ML-Modells. Dabei werden hohe Kosten verursacht und die Zeit, bis ein erstes Modell zur Verfügung steht, ...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Google Cloud
Machine Learning

17.5.2021 | 5 Minuten Lesezeit

Nils Bauroth

Sven Rediske

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Noch vor kurzer Zeit mussten für den Einsatz von künstlicher Intelligenz (KI) unter großem Aufwand eigene KI-Modelle erstellt werden. Heute ist für viele Anwendungsfälle die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Machine Learning
Python

29.7.2020 | 11 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und Konstruktion eigener neuronaler Netze möglich. Heute ist die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken. So kann man ...

Cloud
Computer Vision
Data
Python
Machine Learning
Google Cloud
Künstliche Intelligenz

8.7.2020 | 11 Minuten Lesezeit

Nico Axtmann

Marcel Mikl

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und ausreichend Spezialwissen möglich. Hauptsächlich große Internet-Konzerne wie Google, Apple und Facebook hatten das Geld, die Daten und die Expertise, um ...

Data
Machine Learning
Künstliche Intelligenz

6.7.2020 | 7 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

Machine Learning in der Praxis. Eine Mate mit … Matthias Niehoff #EineMateMit

Machine Learning und künstliche Intelligenz sind aktuell in aller Munde und versprechen vielfältige Einsatzmöglichkeiten im Unternehmen. Trotzdem tun sich viele Unternehmen aktuell noch schwer, das Potential der Technologie zu nutzen. „Der Fokus liegt...

Künstliche Intelligenz
Data
Community
Machine Learning

27.5.2020 | 1 Minuten Lesezeit

Matthias Niehoff

Process Mining mit bupaR

Process Mining schafft Transparenz darüber, was wirklich in Unternehmen geschieht. Im Prozessmanagement werden die Idealvorstellungen eines Prozesses meist langwierig definiert. In der Praxis ist die Qualität dieser Beschreibungen jedoch oft nicht eindeutig...

Open Source
Data
Process Management

5.5.2020 | 9 Minuten Lesezeit

Anna Lukas

Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert

Warum gelingt es Data-Science-Initiativen häufig nicht, einen echten Mehrwert zu schaffen? Wir haben einige Ursachen dafür ausgemacht. In diesem Blogpost stellen wir vier typische Fallen für Data-Science-Projekte vor und geben Tipps, wie Du sie umschiffen...

Machine Learning
Data
Künstliche Intelligenz
Softwareentwicklung

27.3.2020 | 11 Minuten Lesezeit

Marcel Mikl

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Kontakt

Absenden

The Good, the Bad and the Ugly: Daten effektiv visualisieren und kommunizieren

Datenvisualisierung ist ausschlaggebend für Verständnis und Kommunikation

Was macht einen guten Graphen aus?

1. Daten

2. Übersichtlichkeit & Farben

3. Beschriftung & Achsen

The Grammar of Graphics

1. Daten

2. Ästhetiken

3. Geometriken

4. Facetten

5. Skalierung

6. Statistische Transformationen

7. Koordinatensysteme

Diagrammtypen

Referenzen

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

Simple Deep Learning mit Amazon SageMaker

Vergleich von Text-to-Speech-Systemen

rOpenSci Unkonferenz 2018 und eine Einführung in TensorFlow Probability...

Künstliche Intelligenz Initiative: „codecentric.AI“

Deep Learning Workshop at codecentric AG in Solingen

Looking beyond accuracy to improve trust in machine learning

Explore Predictive Maintenance with flexdashboard

Data Science for Fraud Detection

Social Network Analysis and Topic Modeling of codecentric’s Twitter friends...

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Weitere Artikel in diesem Themenbereich

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Bessere SQL-Datenpipelines mit dbt

Data Governance: Wie können wir Daten demokratisieren?

Streaming Wikipedia mit Apache Kafka

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

Einführung in die Welt der Tourenoptimierung (1/3)

Machine-Learning-Modelle bewerten – Quality Gates etablieren

Schnelles Training eines Recommendation-Modells durch BigQuery ML

KI, Daten und Infrastruktur – ML-Systeme schnell Ende-zu-Ende verproben...

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Machine Learning in der Praxis. Eine Mate mit … Matthias Niehoff #EineMateMit

Process Mining mit bupaR

Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten