Statistische Auswertung in R Programm - Anleitung


Student tippt die auf Laptop am Arbeitsplatz.
Inhaltsverzeichnis
  1. Statistische Auswertung in R Programm - Anleitung
  2. Was ist R und woher kommt es?
  3. Funktionen zum Erzeugen von statistischen Daten
  4. In R Programm auswerten - Schritt-für-Schritt Anleitung
  5. R und R-Studio installieren
  6. Daten importieren
  7. R Statistik graphisch darstellen
  8. Explorative Datenanalyse (EDA)
  9. Inferenzstatistische Analyse
  10. Zusammenfassung
Früher oder später muss sich jeder Student mit dem Thema Statistik auseinandersetzen. Egal was du studierst, fast alle müssen im Rahmen ihrer Abschlussarbeiten zur Durchführung von Statistiken auf eine leistungsstarke Software zurückgreifen. Wertvolle Dienste leistet dafür R Programm oder R Studio. 


Was ist R und woher kommt es?

Es handelt sich um ein Statistik-Werkzeug mit der Programmiersprache R. Die frei zugängliche Software unterstützt die Rechnerleistung. Mit dem R Programm kannst du auf deinem Computer entsprechende Funktionen, Analysen und Darstellungen nutzen. 

R wurde 1992 von Ross Ihaka und Robert Gentleman in Auckland entwickelt und durch die unter der GNU General Public License durch die in Wien ansässige R Foundation for Statistical Computing verbreitet. 


Funktionen zum Erzeugen von statistischen Daten

Das statistische Programm R lässt sich grob in drei Kategorien einteilen:
  • R Rechenoperatoren
Du kannst das Programm R wie einen Taschenrechner mit den üblichen Funktionen nutzen. 
  • Variablen in R
Du kannst unter anderem einzelne Zahlen aufbewahren. Beispielsweise benutzt du x und R verwandelt es in eine 3. Darüber hinaus lassen sich auch eindimensionale Vektoren, zweidimensionale Matrizen oder sogar noch höherdimensionale Datenstrukturen speichern und verarbeiten. 
  • Funktionen mit R
R ermöglicht einfache Funktionen, die du auch selbst schreiben kannst, bis hin zu komplexen Algorithmen. Wenn du sogenannte IDEs (Integrierte Entwicklungsumgebung) benötigst, wäre ein Wechsel zu RStudio zu empfehlen. 


In R Programm auswerten - Schritt-für-Schritt Anleitung

Der Output muss erst geladen und ein Arbeitsverzeichnis definiert werden. Wenn die benötigten Informationen zum Beispiel als Daten aus einem Fragebogen oder einer Umfrage vorliegen, kannst du sie sehr einfach kodieren und erfassen. 

Der Befehl getwd() zeigt direkt die einzulesende Datei an, oder mit setwd(„“) das richtige Verzeichnis definieren. Befindet sich die Datei auf dem Laufwerk C: setwd(„C:/Documents/R-Daten“). CSV-Datei: öffnen mit read.csv2(Dateiname.csv), interpretieren mit readd.csv2(Patientendaten.csv). 

Über „Environment“ von „Import Dataset“ mit RStudio die Dateien über eine Schaltfläche einlesen und die richtigen Trennzeichen unter „delimiter“ definieren. Für das Dezimaltrennzeichen verwendet Excel das Semikolon (;). Ändere „Locale“ auf „Decimal Mark“, um einen Punkt, anstatt ein Komma zu erhalten. 

Für Lageparameter: Dem Befehl noch den Namen des Datensets, ein $ sowie den Variablennamen anhängen, „summary“ für mehrere verwenden. In SPSS liegt der Korrelationskoeffizient zwischen 1,0 (max. positiv) und -1,0 (max. negativ). 


R und R-Studio installieren

Unter https://www.r-project.org/ findest du als Download die Projektseite, unter https://cran.r-project.org/mirrors.html die Installationsdatei. Du wählst du einen Pfad aus und startest die Datei mit R.exe. Eine nutzerfreundlichere Oberfläche bietet die Datei Rgui.exe über den Pfad C:\Program Files\R\R-3.6.1\bin\i386. 
  • R Studio
RStudio findest du unter https://www.rstudio.com/, über Windows-Start klickst du auf Rstudio.exe, was unter anderem diese Vorteile bietet: 
  1. Im rechten oberen Bereich (Environment) befinden sich z.B. Datensets oder Variablen. 
  2. Rechts unten findest du Skript-Dateien oder Daten-Dateien aus anderen Programmen, z.B. Excel, SPSS, STATA. Ausgabe von erstellten Grafiken unter Plots. 
  3. Nutzung der Console zur Vermeidung der Speicherung deiner Befehle. 


Daten importieren

  • CSV-Dateien: mit read.csv2 aus Excel speichern, Daten in den Dataframe „data_csv“ einlesen, fehlende Werte mit na=“NA“ und das Dezimaltrennzeichen mit “,“ kennzeichnen. 
  • XLSX-Dateien: aus Excel speichern, indem du die Datei data.xlsx in den Dataframe data_xlsx mit dem Befehl read_excel einliest. Mit install.packages(„readxl“) installieren, laden mit  library(readxl): install.packages(„readxl“) library (readxl) data_xlsx
  • SPSS: Import mit der read_sav-Funktion des haven-Pakets: install.packages(„haven“) library (haven) data_spss
  • TXT-Dateien (data.txt): einlesen mit dem Dataframe data_txt ein und Verwendung von read.table. data_txt
  • STATA: haven-Paket, Funktion read_dta zum Import in R. Allerdings müssten die Dateien in Version 13 oder größer von STATA gespeichert sein. Import aus data.dta-Datei in dataframe „data_stata“. install.packages(„haven“). library (haven) data_stata


R Statistik graphisch darstellen

Es lassen sich ziemlich simpel hochwertige, professionelle Grafiken über leistungsstarke R-packages wie z.B. ggplot2 erstellen. Bei base R (high level und low level Plot-Funktionen) werden z.B. Linien und Punkte auf ein Papier gezeichnet, fixiert und optional andere Elemente dazu und darüber gezeichnet. 


Explorative Datenanalyse (EDA)

Die EDA beantwortet durch Visualisierung, Transformation und Modellierung die wichtigsten Fragen zu den eigenen Daten. Wie viele Beobachtungen und Variablen gibt es? Wie sieht die Struktur des Datensatzes aus? 

Gelegentlich musst du deine Erkenntnisse aus den Analysen mit anderen teilen. Das könnte problematisch werden, wenn andere Personen über keinen statistischen, mathematischen oder informatischen Hintergrund verfügen. In diesem Fall musst du die Ergebnisse verständlich und visuell ansprechend präsentieren, z.B. mit Tableau von RStudio. 


Inferenzstatistische Analyse

Grundsätzlich wird eine Aussage über die Grundgesamtheit getroffen, wobei allerdings nur eine Stichprobe, ein kleiner Datensatz, aus der Grundgesamtheit entnommen wird. Es kann damit eine Aussage über die Grundgesamtheit getroffen werden, wenn verschiedene statistische Verfahren oder Hypothesentests wie der t-Test, der Chi-Quadrat Test oder die Varianzanalyse eingesetzt werden. 


Zusammenfassung

Die Open-Software R Programm ist nützlich für statistische Berechnungen und Grafiken und ist aktuell auf allen wichtigen Plattformen verfügbar. RStudio verfügt über eine integrierte Entwicklungsumgebung und zeigt eine höhere Benutzerfreundlichkeit. Die online abrufbaren Pakete bieten zahlreiche zusätzliche Funktionen. R stellt für statistische Problemstellungen sowohl in der Wirtschaft als auch in der Wissenschaft eine Standardsprache dar.