3  Datentypen und -quellen

3.1 Datentypen

Im wesentlichen unterscheidet man zwischen drei Datentypen:

  • Nominal skalierte Daten
  • Ordinal skalierte Daten
  • Metrisch skalierte Daten

3.1.1 Nominal skalierte Daten

Nominal skalierte Daten sind Daten, die eine bestimmte Anzahl von verschiedenen Ausprägungen haben kann. Für diese Ausprägungen ist nur Gleichheit und Ungleichheit definiert. Also entweder sind zwei Ausprägungen gleich oder eben unterschiedlich. Beispiele dafür sind Geschlecht, Farben, Herkunftsland und ähnliches. Als mathematische Operatoren sind nur \(=\) und \(\neq\) definiert. In der Statistik ist es oft üblich diese Ausprägungen anhand natürlichen Zahlen zu codieren. Existieren nur zwei Ausprägungen, wie zum Beispiel Gewinn und Verlust, dann spricht man von einem dichotomen Merkmal. Bei dichotomen Merkmalen werden die Ausprägungen in der Regel mit 0 und 1 codiert.

Beispiel 3.1 (Nominal skalierte Daten) Ein paar Beispiele für nominal skalierte Daten:

  • Gesundheitszustand: gesund, krank (dichotom)
  • Geschlecht: weiblich, männlich, divers
  • Ernährungstyp: Omnivor:in, Pescetarier:in, Vegetarier:in, Veganer:in, …

3.1.2 Ordinal skalierte Daten

Ordinal skalierte Daten haben wie nominal skalierte Daten nur eine bestimmte Anzahl von Ausprägungen. Zusätzlich gibt es eine Reihenfolge oder Rangordnung zwischen den Ausprägungen. Es ist klar definiert, welche Ausprägung kleiner, niedriger, schlechter ist als eine andere. Somit sind auch die mathematischen Operatoren \(<\) und \(>\) definiert.

Beispiel 3.2 (Ordinal skalierte Daten) Ein paar Beispiele für ordinal skalierte Daten:

  • Schulnoten: sehr gut, gut, …, nicht genügend (oder 1, 2, 3, 4, 5)
  • Bildungsgrad: Hauptschule, AHS, Studium, …
  • Qualitätsstufen: 1, 2, 3, 4, 5
  • Bewertung: 0 bis 5 Sterne

3.1.3 Metrisch skalierte Daten

Metrische Daten sind Daten, die man im herkömmlichen Sinne messen oder abzählen kann. Man unterscheidet zwischen diskreten und stetigen Daten. Diskrete Daten sind Daten die man abzählen kann oder anhand von natürlichen Zahlen beschreiben kann. Stetige Daten sind Daten, die in einem beliebig großem Intervall theoretisch unendlich viele Werte annehmen können Der Unterschied zu ordinalen Daten ist, dass man ein Verhältnis bilden kann, so sind 10 Meter doppelt so lange wie 5 Meter. Im Gegenzug dazu kann man nicht sagen, dass bei den Schulnoten eine 2 doppelt so schlecht ist wie eine 1, weil dann müsste 4 doppelt so schlecht sein wie eine 2, wobei aber die 3 noch dazwischen liegt. Das ist darauf zurück zu führen, dass bei ordinalen Daten kein Abstand zwischen den einzelnen Ausprägungen definiert ist, sondern nur die Reihenfolge.

Beispiel 3.3 (metrisch skalierte Daten) Ein paar Beispiele für diskrete metrisch skalierte Daten:

  • Anzahl der verdorbenen Erdbeeren in eine Kiste: 0, 1, 2, 3,…
  • Alter in Jahren: 18, 19, 20, …

Ein paar Beispiele für stetige metrisch skalierte Daten:

  • BMI von Personen
  • Blutzuckerspiegel
  • Aflatoxingehalt in einer Nusspackung