Visualization

Wann welches Diagramm verwenden?

Es gibt eine Vielzahl von Diagrammen und eine Reihe von Ansätzen, diese zu klassifizieren - z.B. von Edward Tufte oder von William Cleveland. Allerdings hat sich keine Klassifikation durchgesetzt, so dass die Auswahl und Gestaltung eines Diagrammtyps Handwerk und Stück Kunst gleichermaßen ist. Im Folgenden finden Sie eine Auswahl empfehlenswerter Diagrammtypen für unterschiedliche Zwecke. Dabei finder der "Trinkgeld-Datensatz" Verwendung (ein öffentlich zugänglicher Datensatz).

 

Beispiel 1: Wieviel Trinkgeld wurde gegeben?

Visualisierung von univariaten Daten (Verteilungen)

Dieses Diagramm zeigt wie häufig ein bestimmter Trinkgeld-Betrag an einem bestimmten Tag (Donnerstag-Sonntag) gegeben wurde. Eine sehr gute Möglichkeit für diesen Zweck ist der Boxplot. Dabei stellt die Höhe des Boxplots den Betrag dar, in dem die inneren 50% der Trinkgelder liegen. Beispielsweise liegen die mittleren 50% der gewährten Trinkgelder am Freitag ("Fri") etwa im Bereich von 2 Euro bis 3,50 Euro. Die Länge der Antennen zeigt, über welche Breite sich die extremen Trinkgeld-Beträge erstrecken.

 

Ein Violin-Plot ist sehr ähnlich zum Boxplot mit der Ausnahme, dass die Breite der "Violine" anzeigt, wie viele Fälle pro Trinkgeld-Höhe vorliegen, also wie viele Daten verfügbar sind pro Trinkgeld-Betrag. Das ist eine hilfreiche Information, da daraus z.B. die Stabilität des Betrages erschlossen werden kann.

Beispiel 2: Je höher die Rechnung im Restaurant, desto mehr Trinkgeld?

Visualisierung von (bivariaten) Zusammenhängen

Dieses Diagramm zeigt den Zusammenhang zwischen der Höhe einer Restaurant-Rechnung und des gewährten Trinkgelds. Dabei unterscheidet das Diagramm zwischen Rauchern und Nicht-Rauchern. Zur besseren Verdeutlichung ist "weiche Schätzlinie" (LOESS-Smoother) eingezeichnet. Man erkennt sofort, dass der Zusammenhang von Rechnungshöhe und Trinkgeldhöhe bei Rauchern anders ist als bei Nicht-Rauchern. Raucher geben offenbar "weniger gleichmäßig" Trinkgeld im Vergleich zu Nicht-Rauchern. Bei dem vorliegenden Zusammenhang ist es sinnvoll, weitere Variablen zu untersuchen, die den Zusammenhang zwischen Rechnungshöhe und Trinkgeldhöhe beeinflussen.

Beispiel 3: Wie entwickelt sich die Wirtschaft in Kanada?

Visualisierung von Zeitreihen

Dieses Diagramm stellt die Entwicklung verschiedener wirtschaftlicher Parameter aus Kanada im Zeitverlauf dar (Produktivität - prod, logarithmierte Beschäftigungszahlen - E, Arbeitslosenrate - U, Reallöhne - rw). Für Entwicklungen, bei denen der Zeitverlauf entscheidend ist, sind Zeitreihen die erste Wahl zur Visualisierung. Das Diagramm zeigt auch den in die Zukunft projizierten Trend an.

Beispiel 4: Wie erfolgreich sind die Verkäufer?

Visualisierung von quantitativen Werten in einer Matrix von nominalen Variablen

Das oben stehende Diagramm zeigt das Erfolgsprofil von "Verkäufern" (hier Basketballspieler der NBA) auf einer Reihe von Erfolgskennzahlen (hier: Spiel-Statistiken wie Anzahl von gewonnenen Zweikämpfen). Dieses sog. "Heatmap" zeigt also für eine Matrix von nominalen Variablen (Y-Achse: Verkäufer, X-Achse: Erfolgskennzahlen) die quantitative Ausprägung (Quelle).

Beispiel 5: Interaktive Diagramme

Interaktive Diagramme bieten den Nutzern die Möglichkeit, selber und ich Echtzeit die Datengrundlage des Diagramms zu ändern, und die Veränderungen direkt im Diagramm zu beobachten.

Mit Shiny von RStudio steht eine leistungsfähige Umbegung zur Verfügung, um die Datenanalyse mit R durch interaktive Online-Grafiken zu ergänzen. Shiny verfügt über Anbindung an moderne Visualisierungsumgebungen wie D3.js oder Google Charts.

Beispiel 6: Automatisierte Berichte

Automatisierte Berichte sind eine effiziente Art, Zahlen und Analysen (inkl. aufwändigerer prädiktiver Modelle) standardisiert erstellen zu lassen. Beispielsweise könnte jeden Monat ein Bericht erstellt werden mit den Fällen, die am ehesten zu einem Hochkastenfall führen könnten. Oder die Fluglinien, die am meisten Verspätung aufweisen.

Druckversion Druckversion | Sitemap
© Data-Divers