Deskriptive Statistik – Einführung
Die deskriptive Statistik verwendest Du nicht, um neue Erkenntnisse aus den Daten herauszuziehen, sondern um Dir ein Verständnis dafür zu verschaffen, was der Datensatz bzw. die ganzen Zahlen aussagen. Deswegen wird sie auch beschreibende Statistik genannt. Doch es gibt ein Problem: Datensätze können sehr verschieden sein. Das zeigen Dir auch die folgenden zwei Beispiele:
Daniel ist Mathelehrer in einer 7. Klasse. Er lässt alle Schüler einen Test schreiben und benotet diesen. Dafür erstellt er eine Tabelle. In diese Tabelle schreibt er in die erste Spalte den Namen jedes Schülers, in die zweite die erreichte Punktzahl des Schülers und in die Dritte die erreichte Note.
Laura betreibt einen kleinen Onlineshop, in dem sie Spiele verkauft. Damit sie mehr Spiele verkaufen kann, versucht sie in den Daten ihres Shops mehr über ihre Kund*innen herauszufinden. Sie erstellt sich eine Tabelle. In diese trägt sie für alle Spiele, die im letzten Jahr gekauft wurden, ein:
- Name des Spiels
- Genre des Spiels (z. B. Kartenspiel, Strategiespiel, Partyspiel)
- Preis
- Datum des Kaufs
- Postleitzahl der Lieferadresse
Wie Du siehst, können Datensätze ganz unterschiedliche Bereiche umfassen, unterschiedlich aussehen und unterschiedlich groß sein. Um eine für alle verständliche Beschreibung aller Daten zu ermöglichen, müssen allgemeine Elemente gefunden werden, die sie beschreiben. Diese Elemente sind:
- Skalenniveau
- Mittelwert
- Streuung
Skalenniveau
Das Skalenniveau gibt an, welche Arten von Rechenoperationen Du mit einer Variable durchführen kannst. Das ist wichtig, da es auch bei vielen Variablen sofort sichtbar macht, wie viele Informationen in einer einzelnen Variable enthalten sind.
Variablen oder Merkmale werden in der Statistik die Elemente genannt, die untersucht werden. Der Wert, den die untersuchte Variable annimmt, heißt Merkmalsausprägung. Im Beispiel von Daniel sind die Variablen, die er erhebt Name, erreichte Punktzahl und Note.
Es gibt drei Skalenniveaus:
- Nominalskala
- Ordinalskala
- Kardinalskala
Nominal skalierte Variablen sind Variablen wie das Geschlecht oder der Geburtsort. Diese Variablen ermöglichen wenig mathematische Operationen. Du kannst nur vergleichen, ob die Variable gleich oder ungleich ist. Bei dem Geschlecht könntest Du also beurteilen, ob zwei Menschen das gleiche oder unterschiedliche Geschlechter haben.
Bei ordinal skalierten Variablen ist es möglich, eine Hierarchie zwischen den einzelnen Kategorien herzustellen. Ein Beispiel hierfür sind Schulnoten. Bei Schulnoten kannst Du nicht nur vergleichen, ob zwei gegebene Noten gleich oder nicht gleich sind, sondern auch welche Note die bessere ist.
Du kannst also neben dem einfachen Vergleich eine Rangfolge herstellen. Bei Schulnoten kannst Du zwar sagen, welche die bessere ist, aber nicht, was der Abstand zwischen zwei gegebenen Noten ist. Zum Beispiel ist eine Note eins nicht doppelt so gut wie eine Note zwei. Dafür braucht es das nächsthöhere Skalenniveau; das Kardinalskalenniveau.
Kardinal skalierte Variablen können neben den Vergleichsmöglichkeiten der anderen Skalen auch auf Abstufungen hin verglichen werden. Ein typisches Beispiel für kardinal skalierte Daten ist die Körpergröße. Hier kannst Du sagen, ob die Größe zweier Personen gleich oder ungleich ist, wer größer ist, und in welchem Verhältnis sich die Größe unterscheidet.
Zur besseren Übersicht werden die unterschiedlichen Skalenniveaus hier noch einmal als Tabelle dargestellt:
Skalenniveau | Eigenschaften | Beispiel |
nominal | vergleichbar | Geschlecht, Geburtsort |
ordinal | vergleichbar, Hierarchie | Schulnoten |
kardinal | vergleichbar, Hierarchie, Verhältnis | Körpergröße |
Kardinal skalierte Variablen können noch in intervall- und verhältnisskaliert unterteilt werden. Sie unterscheiden sich, insofern, als verhältnisskalierte Variablen einen natürlichen Nullpunkt haben (z. B. Temperatur). Für die psychologische Forschung ist das jedoch in der Regel nicht von Bedeutung.
Mittelwert Psychologie
Der Mittelwert gibt an, wo die Mitte der Daten liegt.Doch was genau mit der Mitte gemeint ist, kann unterschiedlich sein. Bei einer nominalskalierten Variable wie dem Geburtsort macht es schließlich keinen Sinn, aus zwei verschiedenen Orten von zwei Personen einen Mittelwert zu bilden. Die für die psychologische Forschung wichtigsten Mittelwerte sind:
- arithmetisches Mittel (für Kardinalskalenniveau)
- Median (für Ordinalskalenniveau)
Arithmetisches Mittel
Der wohl bekannteste Mittelwert ist das arithmetische Mittel. Das arithmetische Mittel errechnest Du, indem Du alle Werte einer Variable addierst und dann durch ihre Anzahl teilst. Das folgende Beispiel zeigt, wie Du das arithmetische Mittel berechnest:
Du möchtest die Bearbeitungszeit für die Beantwortung eines Fragebogens messen. Daher lässt du ihn von fünf Personen durchführen und stoppst die Zeit. Die gemessene Zeit in Minuten ist:
Zuerst addierst du die gemessenen Zeiten zusammen:
Danach teilst du den Summenwert durch die Anzahl:
Das arithmetische Mittel der Bearbeitungszeit ist also 33 Minuten.
Median
Der Median ist der Mittelwert, den Du bei Variablen mit Ordinalskalenniveau verwenden kannst. Um den Median zu bilden, bringst Du alle Ausprägungen einer Variable in eine aufsteigende Reihenfolge und nimmst den Wert aus der Mitte. Wie das aussieht, zeigt das folgende Beispiel:
Neben dem arithmetischen Mittel möchtest du jetzt auch den Median deiner kleinen Zahlenreihe berechnen. Dazu bringst du alle Zahlen in eine aufsteigende Reihenfolge:
Danach suchst du dir den Wert in der Mitte, dieser ist der Median. Bei fünf Zahlen liegt die Mitte bei drei. Der Median ist deswegen 32.
Natürlich kann es auch passieren, dass es keine Mitte gibt, weil Du eine gerade Anzahl an Ausprägungen vor Dir hast. In diesem Fall wählst Du die beiden Werte, die der Mitte am nächsten sind, addierst sie und teilst sie durch 2. Dieser Wert ist dann der Median.
Streuung
Die Streuung einer Variable gibt an, wie weit einzelnen Datenpunkte vom Mittelwert abweichen. Maße, die die Streuung angeben, werden auch Dispersionsparameter genannt. Wie auch beim Mittelwert gibt es verschiedene Arten von Streuung, die je nach Skalenniveau der Variablen verwendet werden können. Diese sind:
- Spannweite
- Varianz
- Standardabweichung
Spannweite
Die Spannweite ist das einfachste Maß für die Streuung. Die Spannweite gibt die Größe des Bereichs an, in dem sich die einzelnen Ausprägungen befinden. Um die Spannweite zu berechnen, ziehst Du den Wert mit der niedrigsten Ausprägung von dem Wert mit der höchsten Ausprägung ab. Wie das geht, zeigt das folgende Beispiel:
Um herauszufinden, wie groß die Spannweite der Bearbeitungszeit ist, die deine Versuchspersonen gebraucht haben, nimmst du dir die Liste, die du zuvor erstellt hast. Praktischerweise hast du sie bei der Berechnung des Medians ja bereits in eine Reihenfolge gebracht.
Als Erstes schreibst du dir den höchsten und den niedrigsten Wert aus der Liste heraus:
Danach ziehst du die niedrigste Ausprägung von der höchsten ab und erhältst so die Spannweite:
Die Spannweite der Zeiten, die der die einzelnen Menschen zur Bearbeitung deines Fragebogens gebraucht haben, liegt also bei 15 Minuten.
Die Spannweite kann nur bei ordinal und kardinal skalierten Variablen berechnet werden.
Varianz Psychologie
Mit der Varianz berechnest Du, wie stark alle Werte vom Durchschnittswert abweichen. Zuerst wird von jeder Ausprägung das arithmetische Mittel abgezogen. Damit Du die Varianz auch bei negativen Zahlenwerten berechnen kannst, werden die einzelnen Zahlwerte dafür ins Quadrat gesetzt (mit sich selbst multipliziert). Danach werden die Ergebnisse davon durch die Anzahl der Ausprägungen minus eins geteilt. Wie das genau funktioniert, zeigen sich am Beispiel der Bearbeitungszeiten:
Um die Varianz der Bearbeitungszeit zu berechnen, ziehst du zuerst von jedem Zahlenwert das arithmetische Mittel ab. Das arithmetische Mittel hast du ja bereits berechnet, es liegt bei 33. Die Liste mit Zahlen ist:
Daraus folgt:
Die neue Liste ist also:
Als Nächstes quadrierst du die einzelnen Zahlen und erhältst:
Diese Zahlen addierst du nun:
Und dann teilst du sie durch die Anzahl der Werte minus eins.
Die Varianz kann nur für kardinal skalierte Variablen berechnet werden.
Standardabweichung
Das letzte Dispersionsmaß ist die Standardabweichung. Du berechnest sie, indem Du die Wurzel aus der Varianz ziehst. Das folgende Beispiel zeigt Dir, wie das geht:
Um die Standardabweichung zu berechnen, ziehst Du die Wurzel aus der vorher errechneten Varianz:
Die Standardabweichung ist das am häufigsten verwendete Streuungsmaß. Auch dieses Maß kann nur für kardinal skalierte Variablen verwendet werden.
Deskriptive Statistik – Darstellung
Eine andere Möglichkeit, sich einen Überblick über Daten zu verschaffen und vielleicht schon erste Erkenntnisse zu erhalten, ist es, die Darstellung zu verändern. Wenn Du einen Datensatz erstellen willst, kannst Du das machen, indem Du eine Tabelle anlegst. Jede Spalte der Tabelle steht für eine bestimmte Variable und jede Zeile gibt die Ausprägungen an. Doch diese Tabellen können schnell sehr groß werden, was sie unübersichtlich macht. Wie schnell das gehen kann, zeigen die Beispiele mit dem Mathelehrer Daniel und der Onlineshopbesitzerin Laura:
Der Mathelehrer Daniel hat einen Mathetest mit seiner Klasse geschrieben. Zur Auswertung hat er in eine Tabelle in die erste Spalte den Namen jedes Schülers, in die zweite die erreichte Punktzahl des Schülers und in die Dritte die erreichte Note geschrieben. In seiner Klasse hat Daniel 25 Schüler. Daher trägt Daniel für jeden Schüler den Namen, die erreichte Punktzahl und die Note ein. Damit hat Daniel 75 Einträge in seine Tabelle (25 Schüler × 3 Variablen).
Laura, die Betreiberin des Onlineshops, hat im letzten Jahr 472 Spiele verkauft. Wie auch Daniel erstellt sie eine Liste, um für jedes gekaufte Spiel die Variablen:
- Name des Spiels
- Genre des Spiels (z.B. Kartenspiel, Strategiespiel, Partyspiel)
- Preis
- Datum des Kaufs
- Postleitzahl der Lieferadresse
einzutragen. Zum Glück hat Laura ein Computerprogramm, dass die Liste für sie automatisch erstellt, denn Lauras Tabelle umfasst 2 360 einzelne Einträge (472 Spiele × 5 Variablen).
Um trotz vieler Daten den Überblick zu behalten, kannst Du diese in
- Häufigkeitstabellen oder
- Diagrammen
darstellen. Mit der veränderten Darstellung kannst Du aber nicht nur einen besseren Überblick erhalten, sondern den Datensatz auch besser verständlich machen. Das hilft, anderen zu erklären, was die Daten genau beschreiben.
Häufigkeitstabelle
Eine Häufigkeitstabelle ist eine Art, die Daten in einer Tabelle zu sortieren. Bei einer Häufigkeitstabelle werden die Daten nach der Häufigkeit einer Merkmalsausprägung sortiert. Das bedeutet, Du wählst ein Merkmal aus der Tabelle aus, zählst, wie oft jede Ausprägung in Kombination vorkommt, und trägst diese in eine neue Tabelle ein. Der Vorteil einer Häufigkeitstabelle ist, dass sie für jedes Skalenniveau angewendet werden kann. Bei sehr vielen Ausprägungen eines Merkmals besteht allerdings das Risiko, dass sie unübersichtlich wird, weshalb es praktischer ist, eine Häufigkeitstabelle für Variablen mit wenigen Ausprägungen zu verwenden.
Wie eine Häufigkeitstabelle aussehen kann, zeigt Dir die folgende Abbildung. Die Zahlen beziehen sich auf das Beispiel mit Lauras Online Shop. Du kannst Dir sicher vorstellen, dass die Tabelle deutlich unübersichtlicher wäre, wenn Laura statt fünf verschiedenen Arten von Spielen 20 oder 45 verkauft hätte.
Abbildung 1: Eine Häufigkeitstabelle zeigt Dir die Häufigkeit der Ausprägung einer Variable.
Psychologie Diagramme
Während Du bei der Häufigkeitstabelle immer noch bei der Darstellungsform einer Tabelle bleibst und nur einzelne Zusammenhänge hervorhebst, kannst Du den Datensatz mit Diagrammen ganz grafisch darstellen.
Abbildung 2 zeigt die gleichen Werte, die vorher in Abbildung 1 dargestellt wurden. In der bildlichen Darstellungsform kannst Du sofort sehen, dass ein Spiel (Spiel B) viel häufiger verkauft wurde als die anderen.
Abbildung 2: Ein Diagramm kann Dir helfen, schnell einen guten Überblick über die Daten zu bekommen.
Wenn Du die beschreibende Statistik abgeschlossen hast, kannst Du Deinen Datensatz mit weiteren statistischen Methoden untersuchen, um noch mehr herauszufinden. Diese Techniken werden induktive Statistik oder "Inferenzstatistik" genannt.
Deskriptive Statistik Psychologie - Das Wichtigste
- Deskriptive Statistik wird auch beschreibende Statistik genannt und besteht aus Methoden, einen Datensatz zu ordnen und zu beschreiben.
- Allgemeine Elemente, zur Beschreibung von Variablen in einem Datensatz sind:
- Skalenniveau (nominal, ordinal oder kardinal)
- Mittelwert (arithmetisches Mittel oder Median)
- Streuung (Spannweite, Varianz oder Standardabweichung)
- Auch die veränderte grafische Darstellung kann einem helfen, den Datensatz besser zu verstehen. Darstellungsmöglichkeiten sind:
- Häufigkeitstabellen
- Diagramme
Nachweise
- Statistik für Psychologen für Dummies (2017). Wiley
- Statistik für Psychologen im Klartext (2003). Pearson
Wie stellen wir sicher, dass unser Content korrekt und vertrauenswürdig ist?
Bei StudySmarter haben wir eine Lernplattform geschaffen, die Millionen von Studierende unterstützt. Lerne die Menschen kennen, die hart daran arbeiten, Fakten basierten Content zu liefern und sicherzustellen, dass er überprüft wird.
Content-Erstellungsprozess:
Lily Hulatt ist Digital Content Specialist mit über drei Jahren Erfahrung in Content-Strategie und Curriculum-Design. Sie hat 2022 ihren Doktortitel in Englischer Literatur an der Durham University erhalten, dort auch im Fachbereich Englische Studien unterrichtet und an verschiedenen Veröffentlichungen mitgewirkt. Lily ist Expertin für Englische Literatur, Englische Sprache, Geschichte und Philosophie.
Lerne Lily
kennen
Content Quality Monitored by:
Gabriel Freitas ist AI Engineer mit solider Erfahrung in Softwareentwicklung, maschinellen Lernalgorithmen und generativer KI, einschließlich Anwendungen großer Sprachmodelle (LLMs). Er hat Elektrotechnik an der Universität von São Paulo studiert und macht aktuell seinen MSc in Computertechnik an der Universität von Campinas mit Schwerpunkt auf maschinellem Lernen. Gabriel hat einen starken Hintergrund in Software-Engineering und hat an Projekten zu Computer Vision, Embedded AI und LLM-Anwendungen gearbeitet.
Lerne Gabriel
kennen