Es ist für die Datenverarbeitung wichtig, dass die Datensätz tidy sind, damit die Funktionen in R problemlos mit den Daten laufen. Das bedeutet, dass die Daten in einem bestimmten Format vorliegen müssen, damit die Funktionen in R auch gut mit den Daten funktionieren (weniger troubleshooting).
Ein Datensatz ist generell immer eine Sammlung von Werten, sei es numerisch oder eine Zeichenkette. Diese Werte sind immer auf zwei Arten organisiert: Jeder Wert gehört zu einer Variable und zu einer Beobachtung. Eine Variable inkludiert alle Werte, die für diese gemessen worden sind (also alle Beobachtungen auf dieser Variable). Eine Beobachtung inkludiert alle Werte, die für diese Beobachtung gemessen wurden (also alle Variablenwerte dieser Einheit).
Damit Daten in R gut mit den Funktionen genutzt werden können, müssen diese in einem tidy-Format vorliegen (auch long-Format genannt). Ein Datensatz ist dann tidy, wenn …
- … jede Variable eine Spalte ist,
- … jede Beobachtung eine Zeile ist,
- … und jede Beobachtungseinheit eine Tabelle formt.