blog_Hero.jpg
Veröffentlicht von       Henrik Ditz

#5 Korrelation vs Kausalität: Gehen Kassetten beim Husten kaputt?

Ein Blick auf die Korrelation von «Verkäufen von Kassetten» und «Asthmatoten in Deutschland» legen das nahe (Korrelation: 0.9898).

Korrelation-Asthmatote-MC-Verkaeufe

(Quelle: scheinkorrelation.jimdo.com)

 

Insbesondere scheint aber wichtig zu sein, dass je mehr Kuhmilch in der Schweiz verwertet wird, desto mehr Rosen nach Deutschland importiert werden…

Korrelation-Kuhmilch-Schweiz-Rosen-Deutschland

(Quelle: scheinkorrelation.jimdo.com)

 

Ja wie jetzt? Ist klar…

 

Wir kommen tagtäglich mit (scheinbaren) Korrelationen in Berührung – in Unternehmen, aber auch privat, wenn wir Nachrichten verfolgen und insbesondere Politikern zuhören.

 

Essenziell wichtig – vielleicht das wichtigste Thema in der Datenanalyse – ist der Unterschied zwischen Korrelation und Kausalität.

 

Diese Unterscheidung ist quasi der Kern von Data Literacy. Dies ist das Ziel aller Datensammlungen und -darstellungen. Und beide zu unterscheiden ist einer der wichtigsten Bestandteile von Data Discovery und Prognosen.

 

Doch nicht nur «unsere» Fähigkeit, hier einen Unterschied zu machen, ist essenziell. Auch auf künstlicher Intelligenz basierende Systeme müssen dabei zuverlässig agieren.

 

Da es in dieser Data Literacy Serie aber erst einmal um uns geht, halte ich den theoretischen Anteil recht schmal und gehe stattdessen später auf Fehlschlüsse ein – quasi zur (Daten-)Propaganda Immunität.

Korrelation ≠ Kausalität

Da hier schon viel zu gedacht und gemacht wurde, spare ich mir an dieser Stelle neue Zahlen und Diagramme und greife auf Beispiele von Qlik zurück.

 

Kommen wir zum ersten Beispiel:

Korrelation-Sales-Commissions-qlik

Hier sehen wir die Trendkurven zweier firmeninterner Metriken. «Verkäufe» (Sales) und «Ausgezahlte Provisionen» (Commissions). Auf den ersten Blick fällt ausserdem auf, dass es zwei Y-Achsen gibt – eben eine für Sales und eine für Commissions.

 

Die X-Achse repräsentiert einfach die Zeit als «Datum».

 

Weiter fällt auf, dass sich die Verläufe der Kurven stark ähneln. Sie scheinen aufeinander zu reagieren. Die Vermutung liegt also nahe:

Möglicherweise korrelieren diese Trendkurven?

 

Korrelation bedeutet dabei einfach, dass eine gegenseitige Beziehung bzw. Verbindung zwischen zwei (oder mehr) Variablen besteht.

 

Also vereinfacht: Steigt die eine Variable, steigt oder sinkt die andere Variable in ähnlichem Masse.

ABER: Heisst das auch immer, dass zwischen den Variablen eine Kausalität besteht? NEIN!

 

Niemand erfährt das schmerzhafter als meine alten SEO-Kollegen. Jedes Google-Update wird langwierig untersucht; es werden Hypothesen aufgestellt, was genau am Algorithmus geändert wurde; es wird untersucht, was genau die Qualitätsfaktoren bzw. Variablen, die ein besseres oder schlechteres Ranking ausmachen, sind; und man bemerkte immer wieder verzweifelte SEOs, die «extrem» optimiert hatten und deren Resultate ihrer Bemühungen mit einem Streich durch die neue Gewichtung der Variablen weggewischt wurden.

 

Findige SEO-Content-Webseiten veröffentlichten dann in regelmässigen Abständen ihre Korrelationsanalysen von Faktoren – stets mit dem Hinweis, dass es sich eben nicht zwangsläufig um Kausalitäten handeln muss…

Will sagen: Die Gefahr von viel Analyse um nichts ist insbesondere bei diesem Thema gegeben.

 

Schauen wir uns nun zunächst einmal getrennt Korrelation und Kausalität an:

1. Korrelation:


Während eine Variable ansteigt oder sinkt, steigt oder sinkt eine zweite (oder dritte oder vierte…) Variable dazu parallel.

Da wir uns hier in der Statistik (da ist das böse Wort wieder) befinden, messen wir diesen Zusammenhang der beiden Variablen mit dem «Korrelationskoeffizienten» - repräsentiert durch «r».

 

Damit an dieser Stelle nicht alle abschalten, belassen wir die Berechnung dieses Koeffizienten den Nerds (, die Weiterführendes hierzu gern ergoogeln können).

 

Wichtig für uns ist die Bedeutung des Korrelationskoeffizienten r.

 

r kann zwischen 1.0 und -1.0 liegen.

 

r = 1.0 bedeutet dabei eine perfekte positive lineare Korrelation zwischen zwei Variablen.

r = -1.0 bedeutet dagegen eine perfekte(!) negative lineare Korrelation zwischen zwei Variablen.

Das heisst, je näher der Koeffizient an 1.0 bzw. -1.0 ist, desto stärker ist die Beziehung zwischen den Variablen – unabhängig davon, ob positiv oder negativ.

 

Also:

positive-Korrelationr = 1.0 ist die perfekte Korrelation, r > 0 bedeutet eine grundsätzlich positive Korrelation.

 

Das heisst, dass die Änderungen beider Variablen in die gleiche Richtung erfolgen (beide jeweils positiv oder negativ).

 

 

 

negative-Korrelationr = -1.0 ist eine perfekte inverse Korrelation, r < 0 bedeutet eine grundsätzlich negative Korrelation.

 

Das heisst, dass die Änderungen beider Variablen in die entgegengesetzte Richtung erfolgen (eine negativ, eine positiv, oder umgekehrt).

 

 

 

r = 0 ? Tja, hier gibt es überhaupt keine lineare Beziehung zwischen den Variablen. Es können aber natürlich dennoch nicht-lineare Beziehungen bestehen. D.h., dass nicht-lineare Beziehungen zwar r=0 haben, umgekehrt aber nicht automatisch von keiner Korrelation ausgegangen werden kann (Beispiele sind etwa exponentielle oder quadratische Korrelationen).

 

Daraus folgt logischerweise, dass die lineare Beziehung von Variablen stärker wird, desto näher der Korrelationskoeffizient an +/-1 heranrückt.

 

Schauen wir uns ein paar Beispiele an:

 

Korrelationsbeispiele:

Wie oben schon gezeigt, haben wir hier die Trendkurven von Verkäufen und Provisionen:

Korrelation-Sales-Commissions-qlik-richtungen

 

Dies ist ein Beispiel für eine positive Korrelation. Die Variablen ändern sich in die gleiche Richtung. In diesem Beispiel ist r = 0.92 à es handelt sich also um eine recht starke, positive Korrelation.

 

Gewöhnlich schauen wir uns zur Veranschaulichung von Korrelationen die Streudiagramme an:

sales-commissions-streudiagramm

Hier sehen wir die gleichen Daten aus dem Trenddiagramm als Punktwolke. Wie auch hier deutlich wird, steigen die Provisionen mit den Verkäufen, was eben zu r = 0.92 führt.

 

Und so würde eine negative Korrelation in einer Punktwolke aussehen:

korrelation-marathon-zeit-training

Hier sehen wir auf der X-Achse die trainierten Meilen pro Woche und auf der Y-Achse die Zieleinlaufzeit.

 

Ganz klar wird sichtbar: Je mehr trainiert wurde, desto geringer wird die Zeit. In diesem Fall ist r = -0.98. Es liegt also eine inverse Korrelation vor.

 

Und hier?

keine-korrelation

Sie ahnen es. r ist gleich 0 (bzw. in diesem Fall genau r = 0.08). Es gibt kein Muster, keine Beziehung. Die eine Variable hat mit der anderen nichts zu tun.

 

Was hierbei eben entstehen kann, sind die eingangs erwähnten «Scheinkorrelationen». Diese sind im statistischen Sinne nicht wahr und praktisch falsch.

 

Man muss einfach davon ausgehen, dass Schweizer Kuhmilchverarbeitung mit deutschem Rosenimport nichts gemein hat…oder doch…?

 

In Abgrenzung dazu kommen wir zur…

2. Kausalität

Nur weil zwei Metriken korrelieren, müssen sie keinen kausalen Zusammenhang haben.

Kausalität geht hier einen Schritt weiter und besagt, dass die Veränderung einer Variablen die Veränderung einer anderen Variablen bedingt.

Schauen wir uns dazu noch einmal das Korrelationsbeispiel vom Beginn an:

sales-commissions-streudiagramm

 

Wir haben gesehen, dass, wenn die Verkäufe steigen, auch die Provisionen ansteigen. Die Korrelationsrate war hier

r = 0.92 – also recht hoch. Aber bedeutet das auch, dass zwischen beiden Metriken eine Kausalität besteht?

 

Wie können wir das herausfinden?

 

Hier müssen wir ermitteln, ob die Provisionen wirklich mit den Verkäufen ansteigen, bzw. wie die Firmenpolitik bzgl. Provisionszahlungen überhaupt aussieht.

 

Dazu müssten wir hinter den Korrelationskoeffizienten schauen. Das würde im Endeffekt komplexe Tests, Experimente und weitergehende Mathematik bedeuten.

 

Für unsere Zwecke der Datenanalyse reicht es jedoch, das Konzept hinter beiden Begriffen zu verstehen und zu unterscheiden.

 

Wir nehmen dazu ein Beispiel, wie es in der Realität vorkommen kann.

 

Stellen Sie sich vor, Sie sind ein Analyst, der untersuchen soll, ob ein vor zwei Jahren eingeführtes Medikament der Linderung von Krebssymptomen dient.

 

Dazu haben Sie Zugang zu zahlreichen Patientendaten aus unterschiedlichen Datenquellen.

Sie schauen sich die Daten an und Ihnen fällt direkt Erschreckendes auf.

 

Die Patienten, die das Medikament nehmen, scheinen keinerlei Besserung aufzuweisen. Sie führen einige Datenanalysen durch und finden heraus, dass es absolut keine Kausalität zwischen Symptombesserungen und dem Medikament gibt, weil sowohl Patienten mit, als auch ohne Medikament das gleiche Änderungsverhalten aufweisen.

 

Auch wenn man die Anzahl der betrachteten Patienten erhöht, scheint es keine statistisch relevante Verringerung der Krebsrate bzw. der Symptome zu geben.

 

Sie schauen sich jetzt die empirischen Daten im Vergleich zu den ursprünglichen Testdaten an. Hier sehen Sie, dass es in der Testphase tatsächlich eine Linderung der Krebssymptome mit dem Medikament gab.

 

Leider handelte es sich dabei jedoch um Korrelation, nicht Kausalität…

 

Sie schauen weiter und stellen fest, dass zwar die Krebsrate mit dem Medikament nicht sinkt, jedoch mehr Patienten an Bluthochdruck leiden.

 

Sie analysieren die Daten weiter und isoliert betrachtet finden Sie heraus, dass es eine Kausalität von Medikamenteneinnahme und Bluthochdruck gibt.

 

Wie kann das sein?

 

Wie kann man ein Medikament, das nicht hilft und im Gegenteil den Patienten sogar schadet, auf den Markt bringen?

 

Sie führen eine ausführliche Analyse der ursprünglichen Original-Testdaten durch. Sie möchten herausfinden, warum die Daten vorgaben, dass die Krebssymptome mit der Einnahme des Medikaments gelindert werden.

 

Sie stellen fest, dass es den Patienten im Test tatsächlich besser ging. Aber warum fallen die ursprünglichen Ergebnisse mit den neuen so auseinander?

 

Hierin liegt das Problem, Korrelation mit Kausalität gleichzusetzen.

 

Bei der ursprünglichen Analyse wurden schlichtweg weitere Faktoren nicht berücksichtigt. Und viele Patienten, die in der ursprünglichen Studie untersucht wurden, waren von diesen Faktoren beeinflusst – vielleicht eine bestimmte Altersgruppe, vielleicht ohne bestimmte Vorerkrankungen, vielleicht mit einer gesünderen Ernährung…

 

Ein weiteres Real-Life-Beispiel ist eine Studie über eine Hormonersatztherapie bei Frauen. Hier schien es, dass Frauen, die diese spezielle Hormontherapie machten, auch weniger Erkrankungen der Herzkranzgefässe aufwiesen.

 

Das Schlüsselwort hier ist «auch».

Das bedeutet nicht «wegen».

 

Das ist ein klassischer Fall von Korrelation vs. Kausalität.

 

Als diese Studie bekannt wurde, fingen Ärzte an, Hormontherapien gegen koronare Herzerkrankungen zu verschreiben.

Tatsächlich stellte man später bei genauerer Untersuchung jedoch fest, dass diese Hormontherapien entgegen der Annahme sogar einen Anstieg der Herzkranzgefäss-Erkrankungen bedingten.

 

Das genaue Gegenteil des zuvor Proklamierten war also der Fall. Sicherlich ein dramatisches Beispiel des Problems.

 

Schauen wir uns eine weitere praktische Situation aus dem Geschäftsleben an.

 

Dort versuchen Manager i. d. R. die Arbeitskraft und den produktiven Output stetig zu optimieren.

Nehmen wir an, Sie sollen die produktivste Arbeitsphase in einer Fabrik analysieren.

 

Sie sollen dazu Daten sammeln sowie beobachten und Sie finden heraus, dass die Arbeitnehmer/innen am produktivsten in den frühen Nachmittagsstunden sind.

 

Ihr Vorgesetzter schaut sich die Zahlen an und schliesst daraus, dass täglich eine 15-minütige Einsatzbesprechung um 13.15 Uhr sinnvoll ist, um die Mitarbeitenden weiter zu motivieren.

 

Sie analysieren die Produktivität nun weiter mit der neuen Zeit für die Einsatzbesprechung in den nächsten Monaten. Doch auch in der Woche, in der der Chef Urlaub macht und keine Besprechung stattfindet, ändert sich nichts an der Produktivität am Nachmittag.

 

Sie machen nun einen Test. Einen Monat lang gibt es keine Einsatzbesprechungen, einen weiteren Monat lang zwei Besprechungen pro Woche.

 

Sie zeigen die Daten Ihrem Vorgesetzten. Dieser kann kaum glauben, dass im ersten Monat die Produktivität um 15% erhöht war, im zweiten jedoch nur um 8%. Aber es gab doch eine klare Korrelation zwischen der motivierenden Einsatzbesprechung und der Produktivität…

 

Doch hier hat er sich geirrt und Korrelation mit Kausalität gleichgesetzt.

 

Sie schauen sich daraufhin die Daten näher an und finden heraus, dass der Grund für die höhere Produktivität nicht die Besprechung war, sondern einfach die Mittagspause. Jedes Mal nach einer Pause zeigte sich ein Anstieg der Produktivität.

 

Als Resultat werden dem Team mehr Pausen gewährt und Sie sehen einen Anstieg von Produktivität und Arbeitsmoral.

 

Die Beispiele zeigen, dass es grundsätzlich wichtig ist, die beiden Konzepte von Korrelation und Kausalität zu unterscheiden. In unserem Arbeitsalltag müssen wir stetig darauf achten, dass wir vom Gleichen sprechen, denn beide finden wir ständig im Alltag – beruflich und oft auch privat.

 

Um fundiert argumentieren zu können, müssen wir daher hinterfragen: Hängt das, was Sie mir da gerade erzählen, wirklich zusammen? Oder sieht es nur so aus?

 

In den medizinischen Fällen kann dieser falsche kausale Eindruck gar Leben kosten.

 

Im Geschäftsleben zumindest über Wohl und Weh einer Entscheidung für oder gegen ein strategisches Vorgehen bestimmen.

Key Takeaways

  • Korrelation ist die Beziehung zwischen zwei Variablen.
  • Der Korrelationskoeffizient wird i. d. R. mir «r» bezeichnet.
  • r = 0 heisst: keine Beziehung zwischen den Variablen. r = 1.0 ist eine perfekte, positive Korrelation. r = -1.0 ist eine perfekte, negative Korrelation.
  • Positive Korrelation bedeutet: wenn eine Variable steigt, steigt auch die andere.
  • Negative Korrelation bedeutet: wenn eine Variable steigt, sinkt die andere.
  • Scheinkorrelationen sind «falsche» Beziehungen zwischen Variablen.
  • Kausalität bedeutet, dass die Änderung einer Variablen die Änderung einer anderen bedingt
  • Beide Konzepte zu kennen, ist eine Schlüsselfertigkeit bei der Analyse von Daten.

Der argumentative Anhang

Sorry, hier wird es erst richtig interessant… :D

 

Weil Kausalität bzw. deren Fehlen natürlich zu den argumentativen Schlüsseln gehört und ich bei den Recherchen zu dem Artikel auch auf einen guten Artikel von skeptiker.ch gestossen bin, hier als Ergänzung noch eine Zusammenstellung argumentativer Fehlschlüsse, die im Geschäftsalltag wie im Privaten auch ständig auftreten und in deren Fallen man nicht tappen sollte.

 

Logische Fehlschlüsse sollten mit Hilfe der Step-by-Step Data Literacy Serie zu beheben sein. Um zur «Wahrheit» zu gelangen, müssen dazu natürlich auch die Prämissen stimmen. Das zu hinterfragen – da haben wir oben bereits einen wichtigen Schritt getan.

 

Interessant bei Argumentationsfallen sind aber auch die folgenden – einfach einmal aufgelisteten – informalen Fehlschlüsse. Für Weitergehendes sei die o. g. Webseite empfohlen.

 

  1. Ad hominem – Der Angriff auf die Person

Ein Argument wird dadurch zu widerlegen versucht, indem nicht das Argument selbst, sondern die Person, die das Argument gebracht hat, kritisiert wird.

Wir haben heutzutage einige bekannte Spitzenpolitiker, die genau damit arbeiten…

Beispiel:

A: Der Klimawandel ist menschengemacht.

B: Du willst nur mein Geld.

 

  1. Argumentum ad verecundiam – Autoritäten haben recht

Im Marketing ein sehr beliebtes Mittel…

Dadurch, dass die argumentierende Person eine Autorität ist (Titel, Prominenz, Expertentum …), hat sie recht.

Beispiel:

A: Warum glaubst du, dass Homoehen schädlich für die Gesellschaft sind?

B: Weil Arnold Schwarzenegger das auch meint.

 

  1. Argumentum ad populum – Alle wissen es besser

Ganz interessant heutzutage. Die vermeintliche Zeit des Populismus fusst sicherlich auch zu grossen Teilen darauf, dass die Vernetzung so hoch ist. Das führt dazu, dass das «Herden-» oder «Schwarmverhalten» der Menschen ausgeprägter und schneller wird als früher.

Gerade im Social Media und Reputation Marketing wird dieses Überzeugungsargument häufig subtil genutzt – und teilweise durch den Einsatz von Bots auch missbraucht.

Wenn etwas beliebt ist, ist es gültig/wahr/richtig.

Beispiel:

A: Warum glaubst du, dass Impfen schädlich ist?

B: Weil alle in meiner Gruppe das sagen.

 

  1. Argumentum ad ignorantiam – weil isso…

Erstmal das Gegenteil beweisen. Mit diesem Argument kann man natürlich vieles aushebeln – oder zumindest ist häufig der Aufwand der Gegenargumentation so hoch, dass man «mal eben so» nur schwer dagegen ankommt.

Ein Argument der Ignoranz widerspricht der wissenschaftlichen Methode und dem «gesunden Menschenverstand» durch eine logische Umkehrung. Alles ohne Gegenbeweis ist wahr.

Eine Behauptung wird also wahr, weil es keine Gegenbeweise gibt.

Beispiel:

A: Es gibt keine Beweise dafür, dass die Menschheit schon auf dem Mond war.

B: Beweis mir erstmal das Gegenteil.

 

  1. Natur-Argument (– Hallo Mama)

Ist etwas «natürlich», ist es richtig/wahr/gesund…

Beispiel:

A: Warum soll der Quarkwickel bei Halsschmerzen besser helfen als das Medikament?

B: Quark ist Natur.

(Oder war Natur Quark… ich weiss es nicht mehr…)

 

  1. Traditions-Argument – Das haben wir immer schon so gemacht

Beispiel:

A: Warum machst du die Personalplanung mit Excel?

B: Haben wir hier immer schon so gemacht…

 

  1. Kompositions-Argument – Einer wie alle und alle wie einer

Hier handelt es sich tatsächlich auch um einen informalen Fehlschluss – allerdings vom Kontext abhängig. Ist eines so, dann müssen alle anderen auch so sein. Die Wahrheit dieser Argumentation hängt vom Sachverhalt ab:

Beispiele:

Wahr wäre:

A: Ich verbaue für meinen Weg nur graue Pflastersteine.

B: Dein Weg wird grau.

Falsch dagegen:

A: Warum traust du keinem Politiker?

B: Da gab es doch jetzt diesen Fall mit diesem korrupten Minister.

 

  1. Kompromiss-Argument – Nichts Halbes und nichts Ganzes

Die Wahrheit muss zwischen zwei Extremen liegen.

Kompromisse werden oft als der beste Weg bevorzugt, müssen aber deshalb längst nicht immer Sinn machen.

Beispiel:

A: Kinder müssen streng erzogen werden und dürfen auch mal einen Klaps kriegen.

B: Kinder müssen sich ohne Erziehung frei entfalten.

C: Das Beste wäre, Kindern einen Klaps zu geben, wenn sie sich nicht frei entfalten.

 

  1. Post hoc, ergo propter hoc oder auch Cum hoc, ergo propter hoc

Sie ahnen es: Korrelation ist Kausalität. Da muss an dieser Stelle nicht mehr viel zu gesagt werden, hoffe ich. Einer der Kernpunkte der Data Literacy ist eben, Korrelation und Kausalität nicht gleichzusetzen.

Beispiel:

A: Warum glaubst du, dass Globuli wirken?

B: Wenn ich mich erkälte, nehme ich immer Globuli und zwei Wochen später bin ich wieder gesund…

Ein Klassiker…

 

  1. Strohmann-Argument – Das Wort-im-Mund-herumdrehen-Gefühl

Dabei wird nicht der eigentliche Kern der Aussage kritisiert, sondern eine verzerrte oder weitergesponnene Version. Teilweise wird auch verallgemeinert, was jedoch mit der Logik des eigentlichen Arguments nichts mehr zu tun hat.

Beispiel:

A: Meiner Meinung nach funktioniert das iPad gut.

B: Sie sagen also, dass alle Geräte, die nicht von Apple kommen, nichts taugen.

 

  1. Zirkularität – Wenn die Blase drückt

Hier ist die Prämisse die Schlussfolgerung und umgekehrt. Die oft beschrieenen Filterblasen gehören zu den Folgen dieser Argumentationsketten.

Da kommt man nur schwer zwischen und deshalb verfestigen sich diese Blasen auch schnell.

Beispiel:

A: Warum glaubst du, dass der Klimawandel nicht menschengemacht ist?

B: Weil Donald Trump das gesagt hat.

A: Warum ist das, was Donald Trump sagt, wahr?

B: Weil der Klimawandel nicht menschengemacht ist.

 

Ich hoffe, der kleine Exkurs war etwas weiterführender interessant. Nicht nur für Data Literacy in Unternehmen, sondern durchaus auch einfach einmal, um sich über die eigenen Argumentationsstrategien und die des Gegenübers bewusst zu werden.

 

Guten Entscheidungen geht ja die Abwägung einer Reihe von Argumenten voraus. Die «Qualität» einer Entscheidung hängt damit natürlich vom Verständnis dieser Argumentationskette ab.

 

Dieser Beitrag ist etwas länger geworden und ist im Grunde ein kleiner Grundlagen-Meilenstein beim Thema Data Literacy.

 

Es geht aber weiter. Das nächste Mal mit A/B-Tests - und vielleicht packe ich Hypothesentests direkt mit rein.

Über Rückmeldungen und Anmerkungen freue ich mich natürlich immer!

 

Update:

Ein aufmerksamer Leser wies völlig zutreffend auf meine Verkürzte Darstellung hin, dass es bei r=0 natürlich nicht automatisch KEINE Beziehung gibt, sondern nur keine lineare. Entsprechend habe ich das ergänzt. Vielen Dank!

Henrik Ditz

Henrik Ditz

Datenaffinität gepaart mit einer grossen Portion Kreativität - Henrik Ditz kommt aus dem technischen Marketing und verbindet seit jeher Ansprüche der Kunden mit neuen, identitätsstiftenden Ideen. Seit über 12 Jahren ist es seine Passion, Kunden zu verstehen und echten Mehrwert zu schaffen. Weiterdenken, Ideen in Konzepte giessen und darüber erzählen - das ist seine Expertise für Heyde.

VERWANDTE BEITRAGE