2  Grundgesamtheit, Stichprobe

2.1 Ausgangslage

2.1.1 Fragestellung

Der erste Schritt jeder wissenschaftlichen Untersuchung besteht darin, eine klare und präzise Fragestellung zu formulieren. Diese Fragestellung bestimmt den gesamten weiteren Forschungsprozess, einschließlich der Datenerhebung, Analyse und Interpretation der Ergebnisse.

  1. Wo liegt das Problem? Was möchte ich näher untersuchen? Bevor die Untersuchung beginnt, muss das zu erforschende Problem klar identifiziert werden. Die Fragestellung kann verschiedene Aspekte umfassen, je nach Ziel der Studie:

    • Durchschnittliche Kalorienaufnahme (Zentrum einer Verteilung): Wenn das Ziel ist, den durchschnittlichen Kalorienkonsum in einer bestimmten Population zu bestimmen, liegt der Fokus auf der Berechnung und Analyse des Mittelwerts oder Medians dieser Verteilung.

    • Variabilität eines Merkmals: Wenn das Interesse darin besteht, die Streuung oder Variabilität eines bestimmten Merkmals zu untersuchen, wie z.B. die Unterschiede in der Blutdruckmessung innerhalb einer Population, wird die Varianz oder Standardabweichung dieses Merkmals analysiert.

    • Auftreten eines Ereignisses: Studien können sich auch darauf konzentrieren, die Häufigkeit oder Wahrscheinlichkeit des Auftretens eines bestimmten Ereignisses zu untersuchen, wie das Auftreten einer Krankheit in einer Bevölkerung.

    • Zusammenhang (z.B. BMI vs. Bauchumfang): Wenn das Ziel der Untersuchung ist, den Zusammenhang zwischen zwei Variablen zu untersuchen, wie etwa zwischen dem Body-Mass-Index (BMI) und dem Bauchumfang, wird eine Korrelation oder eine Regressionsanalyse durchgeführt, um den Grad und die Natur des Zusammenhangs zu bestimmen.

  2. Was ist meine Zielgröße? Die Zielgröße ist das spezifische Merkmal oder der Parameter, den man messen und analysieren möchte. Es ist wichtig, klar zu definieren, welche Zielgröße im Zentrum der Untersuchung steht, da dies die Wahl der Analysemethoden und die Interpretation der Ergebnisse bestimmt.

    • Welche Faktoren beeinflussen meine Zielgröße?
      Es ist auch entscheidend, die potenziellen Einflussfaktoren auf die Zielgröße zu identifizieren. Diese Faktoren können als unabhängige Variablen in der Analyse betrachtet werden und helfen, ein tieferes Verständnis des untersuchten Problems zu gewinnen.
  3. Welche Daten sind interessant/verfügbar? Es ist notwendig, eine Übersicht über die verfügbaren Datenquellen zu haben und zu bestimmen, welche Daten für die Untersuchung relevant sind. Dabei sollte geprüft werden, ob die verfügbaren Daten den Anforderungen der Studie entsprechen und ob zusätzliche Daten erhoben werden müssen.

  4. Messbarkeit der einzelnen Größen Ein zentraler Aspekt jeder Untersuchung ist die Sicherstellung, dass die relevanten Größen messbar sind. Dies bedeutet, dass es für jede Zielgröße und jeden Einflussfaktor geeignete Messinstrumente und -methoden gibt, die verlässliche und valide Daten liefern.

  5. Was ist meine Grundgesamtheit (Population)? Schließlich muss die Grundgesamtheit, auch Population genannt, klar definiert werden. Diese umfasst alle Objekte oder Individuen, die das Ziel der Untersuchung darstellen. Eine präzise Definition der Population ist unerlässlich, um sicherzustellen, dass die Ergebnisse der Studie auf die richtige Zielgruppe anwendbar sind und valide Schlussfolgerungen gezogen werden können.

Durch die sorgfältige Bearbeitung dieser grundlegenden Fragestellungen wird eine solide Grundlage für den gesamten Forschungsprozess geschaffen, was letztlich die Qualität und Aussagekraft der biostatistischen Untersuchung sicherstellt.

2.2 Grundgesamtheit, Population

In der Statistik bezieht sich der Begriff Population auf die Gesamtheit aller gleichartigen Objekte oder Individuen, die hinsichtlich eines bestimmten Merkmals untersucht werden sollen. Die Population kann je nach Fragestellung und Untersuchungsziel sehr unterschiedlich definiert sein.

2.2.1 Beispiele für Populationen:

  • Alle Österreicher:innen: Eine Population könnte die gesamte Bevölkerung Österreichs umfassen, wenn man beispielsweise das Durchschnittsalter oder die Häufigkeit bestimmter genetischer Merkmale untersuchen möchte.
  • Charakteristische Teilmengen: Innerhalb einer größeren Population kann man auch spezifische Teilmengen betrachten, wie z.B. Frauen, Männer, Wiener:innen, oder Studierende. Diese Untergruppen ermöglichen es, differenzierte Analysen durchzuführen und spezifische Erkenntnisse zu gewinnen.
  • Charge einer Produktion: In einem industriellen Kontext könnte eine Population die gesamte Charge einer Produktion sein, beispielsweise alle hergestellten Einheiten eines Medikaments, deren Qualität überprüft werden soll.
  • Landwirtschaftliche Flächen und Lebensmittel: In der Agrarwissenschaft könnten Populationen aus landwirtschaftlichen Flächen oder bestimmten Lebensmitteln bestehen, wie z.B. alle in einer Region angebauten Äpfel, Birnen oder Weintrauben.

Um aussagekräftige Erkenntnisse über eine Population zu gewinnen, werden in der Biostatistik oft Daten erhoben. Je nach Ziel der Untersuchung kann dies auf unterschiedliche Weise erfolgen:

  • Zensus: Ein Zensus beinhaltet die vollständige Erhebung der Daten über die gesamte Population. Dies ist beispielsweise der Fall bei einer Volkszählung, bei der alle Mitglieder einer Population befragt werden.

  • Repräsentative Stichprobe: In vielen Fällen ist es jedoch nicht praktikabel oder möglich, die gesamte Population zu untersuchen. Stattdessen wird eine repräsentative Stichprobe aus der Population gezogen, die die Eigenschaften der gesamten Population möglichst genau widerspiegelt. Diese Stichprobe dient dann als Grundlage für statistische Analysen, aus denen Rückschlüsse auf die gesamte Population gezogen werden können.

Dieses Verständnis der Population und der Methoden ihrer Untersuchung bildet eine zentrale Grundlage der Biostatistik und ermöglicht es Forschenden, valide und zuverlässige Aussagen über biologische und medizinische Fragestellungen zu treffen.

Zu Beginn jeder biostatistischen Studie ist es entscheidend, sich gründlich Gedanken darüber zu machen, was die zu untersuchende Population ist. Die präzise Definition der Population ist der erste Schritt, um sicherzustellen, dass die Ergebnisse der Studie valide und auf die richtige Zielgruppe anwendbar sind.

2.2.2 Eingrenzung der Population:

Die Population muss so definiert werden, dass sie die relevanten Merkmale umfasst, die für die Forschungsfrage von Bedeutung sind. Diese Eingrenzung ist notwendig, um klar zu bestimmen, welche Objekte oder Individuen in die Untersuchung einbezogen werden sollen.

Über welche Teilmenge möchte ich eine Aussage treffen?

Es ist oft nicht möglich oder sinnvoll, die gesamte Population zu untersuchen. Daher ist es wichtig, sich darüber im Klaren zu sein, über welche Teilmenge der Population die Studie Aussagen treffen soll. Hierbei spielen mehrere Faktoren eine Rolle:

  • Erreichbarkeit der Untersuchungseinheiten: Die praktische Zugänglichkeit der Untersuchungseinheiten kann die Entscheidung beeinflussen. Wenn bestimmte Mitglieder der Population schwer erreichbar sind, könnte es notwendig sein, die Population geografisch oder anderweitig weiter einzugrenzen.

  • Kostenfaktoren: Die verfügbaren finanziellen Ressourcen sind ein wesentlicher Faktor. Eine Untersuchung der gesamten Population kann sehr teuer sein, während eine gut geplante Stichprobe eine kostengünstigere Alternative darstellen kann.

  • Zeitfaktoren: Der zeitliche Rahmen der Studie kann ebenfalls einschränkend wirken. Wenn die Forschung schnell Ergebnisse liefern muss, ist eine Stichprobe oft die praktikablere Lösung.

Totalerhebung vs. Stichprobenauswahl:
Ein weiterer wichtiger Aspekt ist die Entscheidung zwischen einer Totalerhebung und einer Stichprobenauswahl:

  • Totalerhebung: Bei einer Totalerhebung werden Daten von jedem Mitglied der Population erhoben. Diese Methode liefert umfassende Daten, ist jedoch oft mit hohen Kosten und erheblichem Zeitaufwand verbunden.

  • Stichprobenauswahl: Bei der Stichprobenauswahl wird eine repräsentative Teilmenge der Population untersucht. Dies ist in der Praxis häufiger der Fall, da es oft effizienter und kostengünstiger ist. Die Ergebnisse aus der Stichprobe werden dann verwendet, um Rückschlüsse auf die gesamte Population zu ziehen.

Das genaue Verständnis und die bewusste Entscheidung über die zu untersuchende Population sind grundlegende Schritte in der Planung einer biostatistischen Studie. Sie legen den Grundstein für die methodische Herangehensweise und die Interpretation der Ergebnisse.

2.3 Stichprobe

2.3.1 Repräsentative Stichprobe

Ziel:

Das Hauptziel der Verwendung einer repräsentativen Stichprobe in einer biostatistischen Studie ist es, die Eigenschaften eines bestimmten Merkmals (oder Parameters) der gesamten Population anhand dieser Stichprobe zu bestimmen und zu schätzen. Eine gut ausgewählte Stichprobe ermöglicht es, fundierte Rückschlüsse auf die Population zu ziehen, ohne diese vollständig untersuchen zu müssen.

Eigenschaften einer repräsentativen Stichprobe:

Eine repräsentative Stichprobe soll ein möglichst genaues Abbild der Population sein, sodass sie die Vielfalt und Heterogenität der Population widerspiegelt. Das bedeutet, dass die Stichprobe alle relevanten Merkmale der Population in ähnlichen Verteilungen enthält, um Verzerrungen zu vermeiden.

Beispiel: Österreicher:innen
Nehmen wir an, die Population besteht aus allen Österreicher:innen, und das Ziel ist es, bestimmte Eigenschaften dieser Population zu untersuchen. Eine repräsentative Stichprobe sollte die Heterogenität dieser Population in Bezug auf verschiedene demografische und soziale Merkmale widerspiegeln:

  • Altersstruktur: Die Altersverteilung in der Stichprobe sollte der Altersstruktur der Gesamtbevölkerung Österreichs entsprechen. Wenn beispielsweise 20 % der Bevölkerung über 65 Jahre alt sind, sollte ein ähnlicher Prozentsatz in der Stichprobe vertreten sein.

  • Geschlecht: Die Verteilung der Geschlechter in der Stichprobe sollte die tatsächliche Geschlechterverteilung der Population widerspiegeln, z.B. 50 % Frauen und 50 % Männer, sofern dies der Verteilung in der Gesamtbevölkerung entspricht.

  • Sozialer Status: Verschiedene soziale Schichten sollten in der Stichprobe proportional zur Gesamtbevölkerung repräsentiert sein. Dies umfasst Faktoren wie Einkommen, Beruf und sozioökonomische Klasse.

  • Bildung: Auch der Bildungsgrad sollte in der Stichprobe angemessen repräsentiert sein, von Personen mit einem niedrigen Bildungsabschluss bis hin zu solchen mit einem höheren Bildungsabschluss.

Durch die sorgfältige Berücksichtigung dieser Merkmale kann sichergestellt werden, dass die Stichprobe die Population genau widerspiegelt. Dies ist entscheidend, um die Ergebnisse der Studie auf die gesamte Population übertragen zu können und verlässliche Schlussfolgerungen zu ziehen. Eine repräsentative Stichprobe bildet somit die Grundlage für valide und generalisierbare Ergebnisse in der Biostatistik.

2.3.2 Einfache Zufallsauswahl

Die einfache Zufallsauswahl ist eine grundlegende Methode zur Ziehung einer repräsentativen Stichprobe. Diese Methode stellt sicher, dass jedes Objekt in der Population die gleiche Wahrscheinlichkeit hat, in die Stichprobe aufgenommen zu werden, was essenziell ist, um Verzerrungen zu vermeiden und zuverlässige Schlussfolgerungen für die gesamte Population zu ziehen.

Merkmale der einfachen Zufallsauswahl:

  • Gleiche Wahrscheinlichkeit:
    Jedes Objekt in der Population hat die gleiche Wahrscheinlichkeit, in die Stichprobe aufgenommen zu werden. Dies bedeutet, dass kein Objekt bevorzugt oder benachteiligt wird, wodurch die Repräsentativität der Stichprobe gewährleistet wird.

  • Unabhängigkeit:
    Die Auswahl eines Objekts in die Stichprobe ist unabhängig von der Auswahl anderer Objekte. Das bedeutet, die Wahrscheinlichkeit, dass ein bestimmtes Objekt als zweites ausgewählt wird, ist nicht davon abhängig, welches Objekt zuerst ausgewählt wurde.

Mögliche Vorgehensweise:

  1. Nummerieren aller Objekte:
    Um eine einfache Zufallsauswahl durchzuführen, wird zunächst jedes Objekt in der Population eindeutig nummeriert. Diese Nummerierung dient als Grundlage für die zufällige Auswahl.

  2. Auswahl anhand von Zufallszahlen:
    Nach der Nummerierung erfolgt die Auswahl der Objekte durch Zufallszahlen. Diese können mithilfe eines Zufallsgenerators, einer Zufallszahlenliste oder durch Ziehen von Losen ermittelt werden. Jedes Objekt, dessen Nummer gezogen wird, wird in die Stichprobe aufgenommen.

Praktische Durchführbarkeit:

Bei der Anwendung der einfachen Zufallsauswahl ist es wichtig, die praktische Durchführbarkeit zu berücksichtigen. Dies betrifft Aspekte wie die Größe der Population, die Verfügbarkeit von Daten, die Methoden zur Generierung von Zufallszahlen und den logistischen Aufwand der Nummerierung und Auswahl. In großen Populationen kann es beispielsweise herausfordernd sein, jedes Objekt zu nummerieren und zufällig auszuwählen, daher müssen praktikable und effiziente Methoden eingesetzt werden.

Die einfache Zufallsauswahl ist eine robuste Methode zur Erzeugung einer repräsentativen Stichprobe, die insbesondere in der Biostatistik weit verbreitet ist. Sie legt den Grundstein für valide und unvoreingenommene Forschungsergebnisse.

2.3.3 Systematische Zufallsauswahl

Die systematische Zufallsauswahl ist eine Methode zur Ziehung einer Stichprobe, bei der jedes ( x )-te Objekt aus einer geordneten Liste der Population ausgewählt wird. Diese Methode ist besonders nützlich, wenn eine einfache, praktikable und dennoch zufällige Auswahl notwendig ist.

2.3.4 Merkmale der systematischen Zufallsauswahl:

  • Jedes ( x )-te Objekt wird ausgewählt:
    Die Methode basiert darauf, ein festes Intervall ( x ) zu bestimmen, nach dem die Objekte aus der Population ausgewählt werden. Dadurch wird eine gleichmäßige Verteilung der Stichprobenobjekte über die gesamte Population hinweg erreicht.

Beispiel:

  • Jedes 10te Objekt:
    Wenn die Population in einer Liste geordnet ist, könnte die Entscheidung getroffen werden, jedes 10te Objekt auszuwählen. Dies würde bedeuten, dass alle 10 Positionen in der Liste ein Objekt in die Stichprobe aufgenommen wird.

  • Auswahl einer Zufallszahl von 1 bis 10:
    Um die erste Auswahl zu bestimmen, wird eine Zufallszahl zwischen 1 und 10 gezogen. Diese Zufallszahl legt fest, mit welchem Objekt die Auswahl beginnt.

    • Beispiel: Wenn die Zufallszahl 4 gezogen wird, beginnt die Auswahl mit dem 4ten Objekt in der Liste.
  • Untersucht werden dann das 4te, 14te, 24te, … Objekt:
    Nachdem das erste Objekt (das 4te in der Liste) ausgewählt wurde, wird jedes weitere 10te Objekt (das 14te, 24te, 34te, usw.) für die Stichprobe ausgewählt, bis die gewünschte Anzahl an Stichprobenobjekten erreicht ist.

Wichtige Überlegung:

  • Achtung – Überlagerung der Auswahlsystematik:
    Ein kritischer Aspekt bei der systematischen Zufallsauswahl ist die mögliche Überlagerung der Auswahlsystematik mit einem Faktor, der die Zielgröße beeinflusst. Wenn die geordnete Liste der Population eine periodische Struktur aufweist, die mit dem Intervall ( x ) korreliert, kann dies zu einer Verzerrung der Stichprobe führen.

    Beispiel: Wenn in einer Produktionslinie jedes 10te Produkt einer speziellen Qualitätskontrolle unterliegt, könnte die systematische Auswahl jedes 10ten Produkts zu einer Verzerrung führen, wenn diese Kontrolle die Zielgröße beeinflusst.

Es ist daher entscheidend, sicherzustellen, dass keine solche Überlagerung vorhanden ist, um die Repräsentativität und Unvoreingenommenheit der Stichprobe zu gewährleisten. Die systematische Zufallsauswahl bleibt jedoch eine effiziente Methode, insbesondere bei großen Populationen, vorausgesetzt, diese potenziellen Verzerrungen werden vermieden.

2.4 Übungen

Übung 2.1 Was ist eine repräsentative Stichprobe?

Übung 2.2 Welche Möglichkeiten gibt es eine repräsentative Stichprobe zu ziehen?

Übung 2.3 Welche Punkte sind bei der einfachen Zufallsauswahl relevant?

Übung 2.4 Beim Stratified Sampling wird die Grundgesamtheit in Gruppen eingeteilt, nach welchen Kriterien?

Übung 2.5 Beim Cluster Sampling wird die Grundgesamtheit in Gruppen eingeteilt, nach welchen Kriterien?

Übung 2.6 Sie sind für die Qualitätskontrolle von Obst zuständig. Es kommt eine LKW-Lieferung mit 500 Kisten Weintrauben und sie wollen diese bezüglich Pestizidsrückstände untersuchen. Dafür müssen sie eine repräsentative Stichprobe ziehen. Wie gehen sie vor, um eine repräsentative Stichprobe zu erhalten.