In der Datenanalyse stößt man häufig auf den Begriff Korrelation. Sie beschreibt, wie stark zwei Variablen miteinander zusammenhängen. Doch Vorsicht: Korrelation bedeutet nicht automatisch Ursache! In diesem Beitrag erfährst du, was Korrelation genau ist, welche Arten es gibt und wie du sie richtig interpretierst.
1. Was ist Korrelation?
Korrelation misst, ob und wie stark zwei Größen gemeinsam variieren.
- Wenn beide Größen gleichzeitig steigen oder fallen, spricht man von einer positiven Korrelation.
- Wenn eine Größe steigt, während die andere fällt, liegt eine negative Korrelation vor.
- Fehlt ein erkennbarer Zusammenhang, ist die Korrelation nahe null.
2. Das Korrelationsmaß – der Korrelationskoeffizient
Der bekannteste Wert zur Messung des Zusammenhangs ist der Pearson-Korrelationskoeffizient (r).
- r = +1 → Perfekte positive Korrelation
- r = -1 → Perfekte negative Korrelation
- r = 0 → Kein linearer Zusammenhang
3. Anschauliches Beispiel
Person | Lernstunden pro Woche | Testergebnis (%) |
---|---|---|
A | 2 | 40 |
B | 4 | 60 |
C | 6 | 75 |
D | 8 | 85 |
E | 10 | 95 |
Hier zeigt sich: Je mehr gelernt wird, desto besser das Testergebnis.
Die beiden Variablen (Lernzeit und Testergebnis) haben eine starke positive Korrelation.
4. Arten der Korrelation
- Positive Korrelation: Beide Variablen bewegen sich in die gleiche Richtung (z. B. Lernzeit und Testergebnis).
- Negative Korrelation: Eine Variable steigt, die andere sinkt (z. B. Sport und Körperfettanteil).
- Keine Korrelation: Keine erkennbare Beziehung (z. B. Schuhgröße und Intelligenz).
5. Vorsicht vor falschen Schlussfolgerungen!
Nur weil zwei Variablen korrelieren, heißt das nicht, dass eine die andere verursacht.
Beispiel:
Die Anzahl der Eisverkäufe und die Anzahl der Sonnenbrände steigen gleichzeitig.
👉 Ursache ist hier die Temperatur, nicht der Eisverkauf.
6. Wie berechnet man Korrelation?
- In Excel:
=KORREL(A1:A10; B1:B10)
- In Python (Pandas): pythonCopyEdit
df.corr()
- In Statistikprogrammen: Fast alle Tools bieten eine eingebaute Korrelationsanalyse.
7. Visualisierung macht den Unterschied
Statt nur Zahlen zu betrachten, solltest du den Zusammenhang mit einem Streudiagramm darstellen. So erkennst du Muster, Ausreißer oder nichtlineare Beziehungen sofort.
Fazit
Korrelation ist ein mächtiges Werkzeug, um Zusammenhänge in Daten zu entdecken.
- Nutze sie, um Hypothesen zu prüfen.
- Interpretiere sie immer im Kontext.
- Vermeide den Fehler, aus Korrelation automatisch eine Kausalität abzuleiten.