Inhaltsverzeichnis
- Statistische Auswertung in R Programm - Anleitung
- Was ist R und woher kommt es?
- Funktionen zum Erzeugen von statistischen Daten
- In R Programm auswerten - Schritt-für-Schritt Anleitung
- R und R-Studio installieren
- Daten importieren
- R Statistik graphisch darstellen
- Explorative Datenanalyse (EDA)
- Inferenzstatistische Analyse
- Zusammenfassung
Früher oder später muss sich jeder Student mit dem Thema Statistik auseinandersetzen. Egal was du studierst, fast alle müssen im Rahmen ihrer Abschlussarbeiten zur Durchführung von Statistiken auf eine leistungsstarke Software zurückgreifen. Wertvolle Dienste leistet dafür R Programm oder R Studio.
Was ist R und woher kommt es?
Es handelt sich um ein Statistik-Werkzeug mit der Programmiersprache R. Die frei zugängliche Software unterstützt die Rechnerleistung. Mit dem R Programm kannst du auf deinem Computer entsprechende Funktionen, Analysen und Darstellungen nutzen. R wurde 1992 von Ross Ihaka und Robert Gentleman in Auckland entwickelt und durch die unter der GNU General Public License durch die in Wien ansässige R Foundation for Statistical Computing verbreitet.
Funktionen zum Erzeugen von statistischen Daten
Das statistische Programm R lässt sich grob in drei Kategorien einteilen:
- R Rechenoperatoren
- Variablen in R
- Funktionen mit R
In R Programm auswerten - Schritt-für-Schritt Anleitung
Der Output muss erst geladen und ein Arbeitsverzeichnis definiert werden. Wenn die benötigten Informationen zum Beispiel als Daten aus einem Fragebogen oder einer Umfrage vorliegen, kannst du sie sehr einfach kodieren und erfassen. Der Befehl getwd() zeigt direkt die einzulesende Datei an, oder mit setwd(„“) das richtige Verzeichnis definieren. Befindet sich die Datei auf dem Laufwerk C: setwd(„C:/Documents/R-Daten“). CSV-Datei: öffnen mit read.csv2(Dateiname.csv), interpretieren mit readd.csv2(Patientendaten.csv).
Über „Environment“ von „Import Dataset“ mit RStudio die Dateien über eine Schaltfläche einlesen und die richtigen Trennzeichen unter „delimiter“ definieren. Für das Dezimaltrennzeichen verwendet Excel das Semikolon (;). Ändere „Locale“ auf „Decimal Mark“, um einen Punkt, anstatt ein Komma zu erhalten.
Für Lageparameter: Dem Befehl noch den Namen des Datensets, ein $ sowie den Variablennamen anhängen, „summary“ für mehrere verwenden. In SPSS liegt der Korrelationskoeffizient zwischen 1,0 (max. positiv) und -1,0 (max. negativ).
R und R-Studio installieren
- R
- R Studio
- Im rechten oberen Bereich (Environment) befinden sich z.B. Datensets oder Variablen.
- Rechts unten findest du Skript-Dateien oder Daten-Dateien aus anderen Programmen, z.B. Excel, SPSS, STATA. Ausgabe von erstellten Grafiken unter Plots.
- Nutzung der Console zur Vermeidung der Speicherung deiner Befehle.
Daten importieren
- CSV-Dateien: mit read.csv2 aus Excel speichern, Daten in den Dataframe „data_csv“ einlesen, fehlende Werte mit na=“NA“ und das Dezimaltrennzeichen mit “,“ kennzeichnen.
- XLSX-Dateien: aus Excel speichern, indem du die Datei data.xlsx in den Dataframe data_xlsx mit dem Befehl read_excel einliest. Mit install.packages(„readxl“) installieren, laden mit library(readxl): install.packages(„readxl“) library (readxl) data_xlsx
- SPSS: Import mit der read_sav-Funktion des haven-Pakets: install.packages(„haven“) library (haven) data_spss
- TXT-Dateien (data.txt): einlesen mit dem Dataframe data_txt ein und Verwendung von read.table. data_txt
- STATA: haven-Paket, Funktion read_dta zum Import in R. Allerdings müssten die Dateien in Version 13 oder größer von STATA gespeichert sein. Import aus data.dta-Datei in dataframe „data_stata“. install.packages(„haven“). library (haven) data_stata
R Statistik graphisch darstellen
Es lassen sich ziemlich simpel hochwertige, professionelle Grafiken über leistungsstarke R-packages wie z.B. ggplot2 erstellen. Bei base R (high level und low level Plot-Funktionen) werden z.B. Linien und Punkte auf ein Papier gezeichnet, fixiert und optional andere Elemente dazu und darüber gezeichnet.
Explorative Datenanalyse (EDA)
Die EDA beantwortet durch Visualisierung, Transformation und Modellierung die wichtigsten Fragen zu den eigenen Daten. Wie viele Beobachtungen und Variablen gibt es? Wie sieht die Struktur des Datensatzes aus? Gelegentlich musst du deine Erkenntnisse aus den Analysen mit anderen teilen. Das könnte problematisch werden, wenn andere Personen über keinen statistischen, mathematischen oder informatischen Hintergrund verfügen. In diesem Fall musst du die Ergebnisse verständlich und visuell ansprechend präsentieren, z.B. mit Tableau von RStudio.