Ressourcen

Sie suchen den Einstieg in Data Science? Sie möchten Wissen aufbauen im Bereich Datenanalyse? Hier stellen wir Ihnen unsere persönlichen Empfehlungen für Sie zusammen.

R

R ist eine Programmiersprache für Datenanalyse. Wenn Sie das Wort "Programmiersprache" abschreckt, dann wird es Sie beruhigen, dass es auch einige "klickbare Oberflächen" (GUIs) gibt - wie den R-Commander. Für den Einstieg in R benötigen Sie einiges an Zeit; allerdings findet ein Großteil aller neuen Entwicklungen in der Statistik in R statt. Mit R sind Sie also am Puls der Zeit.

Link

Beschreibung

R für Einsteiger

Ein Buch für R-Einsteiger ohne vorherigen Progammier-Erfahrung. Besonders geeignet für Sozialwissenschaftler und SPSS-Freunde.

 

Cookbook for R

 

Die Webseite zum gleichnamigen Buch. Ein praxisorientierter "Kochrezept-Einstieg" in R.

RStudio

Diese Oberfläche macht das Leben mit R leichter. Besonders für größere Projekte hilft dieser R-Aufsatz (open source, kostenlos). Darüber hinaus bieten sich leistungsfähige Möglichkeiten, R mit Latex oder Markdown zu verknüpfen. 

Visualisierung

Link Beschreibung
R Graphics Cookbook Die Webseite zum Buch. Viele hilfreiche Tipps für Visualisierung in R v.a. mit ggplot.
Datendesign mit R Anspruchsvolle Visualisierungen mit R - ohne ggplot, sondern mit dem base-Package.
The Elements of Graphing Data Ein Klassiker der Datenvisualisierung; im Gegensatz zu Tufte viel konkreter an den Bedürfnissen der Datenanalyse.

Prädiktive Modellierung

Prädiktive Modellierung versucht auf Basis der Muster in einem gegebenen Datensatz die Ausprägung von Zielvariablen in neuen, bisher unbekannten Fällen vorherzusagen. Ein Problem dabei ist die sog. "Überanpassung" (s. Diagramm; Quelle). Das Diagramm zeigt eine Reihe von Datenpunkten, die mit der Sinus-Funktion erzegut wurden (gepunktete Linie). Dazu eine Funktion ersten Grades (rot), zweiten Grades (grün), dritten Grades (orange) und vierten Grades (blau). Je höher der Grad des angepassten Polynoms, desto besser ist die Anpassung ("Fit") des Modells an die vorhandenen Daten. Wird die Anpassung an neue Daten für alle Modelle gleich gut sein? Werden die Modelle, die die bekannten Daten gut vorgesagt haben, neue Daten mit ebenso hoher Präzision vorhersagen? Augenscheinlich nicht; die blaue Kurve, welche die bekannten Daten sehr gut beschreibt, wird neue Daten (der Sinus-Funktion, welche den gepunkteten Daten zugrunde liegt), nicht mehr gerecht werden. Dies ist ein Beispiel für die sog. "Überanpassung".

 

Daher muss jede prädiktive Modellierung die Güte ihrer Anpassung an neuen, bei der Modellbildung unbekannten Daten prüfen.

Link Beschreibung
Math better explained Der erfrischendste Mathekurs seit langem!
The Elements of 
Statistical Learning
Ein Klassiker der modernen Datenanalyse bzw. des Data Mining mit freier PDF-Version online
Rattle: A Graphical User Interface for Data Mining using R Eine kostenfreie und einsteigerfreundliche Oberfläche für Data Mining. Die Software bietet nicht nur eine beachtliche Auswahl an Optionen und Modellen, sondern sie zeigt auch den erzeugten R-Code an, so dass der Anwender dabei "unter die Motorhaube schauen" kann und lernt.
Druckversion Druckversion | Sitemap
© Data-Divers