Einführung in die Datenauswertung mit R
2020-11-22
Prolog
0.1 Vorbereitung auf den Kurs
Der Kurs wird zwar auf Deutsch stattfinden, aber ich kann nicht garantieren, dass nicht einige Konzepte in diesem Buch dennoch auf Englisch erklärt werden, da die verwendeten Fachbegriffe es ohnehin schon bereits sind. Eine Übersetzung würde daher nur mehr Verwirrung stiften. Zudem findet sich auf Englisch die meiste Lektüre und das Googeln von Fehlermeldungen wird erheblich erleichtert, da mehr Leute im Internet auf Englisch unterwegs sind als auf Deutsch.
Hier findet ihr Links zu R und RStudio, damit ihr beides bereits auf euren Laptops oder Computern installieren könnt. Persönlich empfehle ich das Arbeiten am eigenen Gerät, aber für alle, die keine Laptops besitzen oder mitbringen möchten, werden Computer (Mac) zur Verfügung stehen.
Für die Verwendung der vorhandenen statt eigener Computer würde ich euch bitten, euch unter folgendem Link bei RStudio Cloud anzumelden. Dabei handelt es sich um eine Version von RStudio, die auf einem Server läuft und von euch über jeden beliebigen Browser aufgerufen werden kann. Auf diese Weise sind wir nicht von der IT-Abteilung des ZMBHs abhängig, die neuste Version von R und RStudio zu installieren. Zusätzlich könnt ihr auch von zu Hause auf eure Dateien zugreifen.
Dort müsst ihr euch dann nur anmelden und weiter nichts tun, die neusten Versionen von R und RStudio sind dort bereits installiert.
Bei Installationsschwierigkeiten meldet euch möglichst bereits vor Kursbeginn.
0.2 Aufbau des Kurses
- Vom 18. Oktober bis 29. November (6 Freitage)
- Morgen-Session (mehr Theorie) 10 Uhr (ct) bis 12 Uhr
- Nachmittags-Session (mehr Praxis) 13 Uhr bis … (maximal 17 Uhr)
0.3 Inhalt des Kurses
- Einleitung
- Was ist dieses R?
- R und RStudio
- R als Taschenrechner
- .R-Dateien (Skripte)
- Variablen und arithmetische Operationen
- Wir machen es uns gemütlich in RStudio
- Einstellungen, Themes, etc.
- Project-based Workflow
- R Markdown
- Das Tidyverse (und andere Packages)
- Hilfe finden
- Die Community
- StackOverflow, GitHub, R4DS, Slack, Advanced R
- Arten von Daten
- Daten in der Wildnis
- Data in R
- Vector, matrix, array, list, data.frame (tibble)
- Data formats, Getting data into R
- Mein erster Plot
- Das letzte Kuchendiagramm
- Barplots
- Base R vs ggplot2
- The grammar of graphics
- Scatterplots
- Tidy data
- Prinzip
- Daten importieren
- Data-Wrangling mit dplyr and tidyr
- Funktionale Programmierung (vs OOP)
- Funktionen schreiben
- FP vs. OOP
- Pure functions und Functional Programming
- Statistik
- Basics: sd, var, mean, median, correlation
- Histogramme, Verteilungen
- p-values
- t.test, Wilcoxon rank sum test, quisquared (ANOVA)
- Modelling and data fitting
- Lineare Regression
- Analyse
- modelr, broom
- \(R^2\), rmse, residuals, plots,
- non-linear regression
- Many models
- nested datframes, list colums
- map Funktionen
Diese Inhaltsangabe ist thematisch, nicht chronologisch sortiert und erhebt keinen Anspruch auf Vollständigkeit. Alle Angaben ohne Gewähr. Bei Risiken und Nebenwirkungen fragen Sie Ihren Arzt oder Apotheker.
0.4 Resourcen
0.4.1 Tidyverse
0.4.2 Allgemein R
0.4.3 Statistic
0.4.4 Talks, Podcasts, Blogs
0.5 Sonstige Quellen
Made with the help of these amazing packages (plus documentation): R Core Team (2019); Xie (2019a); Xie (2019b); Allaire u. a. (2019); Xie (2015)