Anleitung: Die statistische Auswertung hinter DOSSIER: Kleines Glücksspiel

DOSSIER hat die Standorte der Glücksspielautomaten in Wien erhoben und auf einer Karte verzeichnet. Mittels eines statistischen Modells konnten wir einen negativen Zusammenhang zwischen der Anzahl der Automaten in einem Bezirk und dem durchschnittlichen Einkommen der BewohnerInnen feststellen. Genauer gesagt: Je niedriger das durchschnittliche Einkommen in einem Bezirk ist, desto höher ist die Automatendichte vor Ort.

So sind wir dabei vorgegangen:

1. Die Software

Folgende Berechnungen wurden mit „R”, einem Open-Source-Programm für statistische Auswertungen, durchgeführt. „R” ist neben „SPSS” und „SAS” eines der meistverwendeten und anerkanntesten Statistiktools und findet in der Wissenschaft weltweit Verwendung. Sie können die Software hier kostenlos herunterladen: http://www.r-project.org/

2. Aufbereitung der Daten

Um Datensätze in „R” verarbeiten zu können, müssen diese speziell aufbereitet werden. Formatierungen von Schriften, Umlaute, Tausender-Trennzeichen bei Zahlen – wie sie beispielweise bei Excel-Files üblich sind – müssen entfernt werden, um eine Datei zu erhalten, die „R” fehlerfrei einlesen kann. Wir haben uns für eine tabulatorgetrennte Textdatei entschieden.

Im Screenshot sehen Sie den für „R” aufbereiteten Datensatz zur Automatenstatistik. Wir interessieren uns für den Zusammenhang zwischen Automatendichte pro 1.000 Personen und dem durchschnittlichen Einkommen auf Bezirksebene. In den Zeilen finden sich die einzelnen „Beobachtungen” – in diesem Fall die 23 Wiener Gemeindebezirke – mit jeweils sieben Variablen, die durch Tabstopps voneinander getrennt sind. Ausgenommen ist die erste Zeile: die Titelzeile.

Unser Rohdatenfile „Bezirksdaten.txt” in der „R”-kompatiblen Form können Sie hier herunterladen. Zur Erinnerung: Es ist wichtig, dass im Datensatz keine Umlaute, kein „ß“ und keine Bezüge (Formeln) stehen.

3. Import der Daten in „RStudio”

Für den folgenden Schritt empfiehlt es sich, ein „R”-Add-On zu installieren: „RStudio” – eine Entwickleroberfläche für die Programmiersprache „R”, die einige Arbeitsschritte vereinfacht. Wir verwenden „RStudio Version 0.98.1091” (Zum kostenlosen Download). Der Vorgang sollte aber auch mit jeder anderen Version funktionieren.

Wir müssen nun die aufbereiteten Daten in „RStudio” importieren. Klicken Sie dazu unter dem Reiter „Environment” auf „Import Dataset” und wählen die Datei „Bezirksdaten.txt” aus. Überprüfen Sie anschließend, ob die Daten korrekt eingelesen wurden und klicken Sie auf „Import”.

Schritt 1: „Import Dataset” - „From Text File...” - „Bezirksdaten.txt” auswählen
Schritt 2: Daten überprüfen - „Import”
Schritt 3: Der Datensatz wird im Feld links oben angezeigt.

4. Untersuchung und Aufbereitung der Daten

Da wir nur mit einem Datensatz arbeiten, können wir die Funktion „attach” verwenden, um unsere Variablen direkt anzusprechen. Geben Sie dazu folgenden Befehl im Feld „Console” ein:

attach(Bezirksdaten)

Mithilfe von Histogrammen können wir nun überprüfen, wie die einzelnen Variablen verteilt sind. Um später ein valides statistisches Modell wählen zu können, ist es essenziell, die Verteilung der Daten zu kennen. Mit folgendem Befehl erzeugen Sie ein Histogramm der Variable „Automatendichte” (Automaten pro 1.000 Personen auf Bezirksebene):

hist(Automatendichte)

Wir sehen, die Daten sind nicht normalverteilt: Es gibt viele Bezirke mit geringer Automatendichte, und wenige Bezirke, in denen die Automatendichte hoch ist.

In einem zweiten Schritt müssen wir überprüfen, ob statistische Ausreißer das Modell verzerren. Wir verwenden dafür eine Boxplot-Grafik. Dafür geben Sie folgenden Befehl in der Console ein:

boxplot(Automatendichte)

Der kleine Kreis ganz oben markiert einen Ausreißer am oberen Ende der Skala mit einem Wert über 2,5. Unser Datensatz links oben zeigt, welcher Bezirk das ist: Die Innere Stadt, der 1. Wiener Gemeindebezirk. Hier leben lediglich 16.629 Menschen – auf Sie kommen 46 Automaten.

Durch das Histogramm und die Boxplot-Grafik wissen wir zwei Dinge:

1.     Die Daten für Automatendichte sind nicht normalverteilt.

2.     Es gibt einen statistischen Ausreißer – den 1. Wiener Gemeindebezirk.

Denselben Vorgang führen wir nun für die Variable „Einkommen” durch – sie zeigt das durchschnittliche Einkommen in einem Bezirk (Rechengang: Bruttobezüge gesamt/Anzahl der steuerpflichtigen Personen).

Zunächst erzeugen wir wieder ein Histogramm und eine Boxplot-Grafik:

hist(Einkommen)

boxplot(Einkommen)

Daraus ergeben sich wieder zwei Erkenntnisse:

1.     Die Einkommen sind annähernd normalverteilt.

2.     Es gibt erneut einen Ausreißer, bei knapp unter 45.000€ Bruttobezügen. Unser Datensatz zeigt: Es ist erneut der 1. Wiener Gemeindebezirk.

Mit einem „Plot” können wir nun den Zusammenhang der beiden Variablen „Einkommen” und „Automatendichte” grafisch darstellen. Geben Sie dazu folgenden Befehl in der „Console” ein:

plot(Einkommen, Automatendichte)

Jeder Punkt im „Plot” stellt einen Bezirk dar. Und erneut zeigt sich ein Ausreißer, der erste Wiener Gemeindebezirk (in der Darstellung ganz rechts oben). Wir wollen den Zusammenhang zwischen Automatendichte und dem Einkommen für die Grundgesamtheit beschreiben – ein solcher Ausreißer würde das Ergebnis verzerren. Wir entfernen den ersten Bezirk deshalb aus unserem Datensatz und berücksichtigen ihn nicht mehr in der weiteren Analyse.

5. Bereinigung der Daten

Wir erstellen nun einen neuen Datensatz – ohne unseren Ausreißer, den ersten Bezirk – und nennen ihn „Bezirksdaten2”. „RStudio” erledigt das mittels folgendem Befehl in der „Console”:

Bezirksdaten2 <- subset(Bezirksdaten,PLZ != 1010)

Der neue Datensatz „Bezirksdaten2” beinhaltet nun nur noch 22 Beobachtungen. Klicken Sie doppelt auf „Bezirksdaten2” im Feld „Environment”, um den Datensatz zu laden.

Um mit dem neuen Datensatz „Bezirksdaten2” arbeiten zu können, müssen die Verweise zum alten Datensatz gelöscht und zum neuen hergestellt werden. Geben Sie folgende Befehle in die Konsole ein:

detach()

attach(Bezirksdaten2)

Wenn wir nun einen neuen „Plot” unserer beiden Variablen erstellen, ist der Ausreißer „Innere Stadt“ nicht mehr zu sehen:

plot(Automatendichte, Einkommen)

Schon auf den ersten Blick zeigt sich ein negativer Zusammenhang: Je niedriger das Einkommen, desto höher die Automatendichte.

6. Überprüfung des Zusammenhangs

Um den Zusammenhang in der Grafik zu verdeutlichen, verwenden wir eine lineare Regression – vereinfacht gesagt versuchen wir, die Automatendichte (abhängige Variable: Y) durch das Einkommen (unabhängige Variable: X) zu erklären.

Dazu sind zwei Schritte notwendig:

1. Geben Sie folgenden Befehl in der „Console” ein:

Reg1 <- lm(Automatendichte~Einkommen)

2. Die Software hat nun im Hintergrund die Regression errechnet. Mithilfe einer Regressionsgeraden können wir den Zusammenhang grafisch darstellen. Die Gerade wird durch folgenden Befehl erzeugt:

abline(Reg1, col=2, lwd=3)

Die Grafik zeigt nun noch deutlicher den negativen Zusammenhang, doch die Methode der linearen Regression hat in diesem Fall Schwachstellen. Sie erinnern sich: Die Analyse unserer Daten hat gezeigt, dass die Automatendichte nicht normalverteilt ist – die Normalverteilung ist allerdings eine Voraussetzung für die lineare Regression.

Wir verwenden deshalb noch eine weitere Methode, die unseren Anforderungen besser entspricht: Die Rangkorrelation nach Spearman.

7.  Die Methode „Spearman”

Um den Rangkorrelationskoeffizienten, das „Spearman's Roh”, zu bestimmen, geben Sie folgenden Befehl in die Console ein:

cor(Automatendichte,Einkommen, method="spearman")

Das Ergebnis lautet: [1] -0.7325615 – der Bestimmtheitsgrad des Zusammenhangs der Variablen. Der Koeffizient kann zwischen 1 und -1 liegen: Ein Wert von 1 beschreibt einen perfekten positiven Zusammenhang, ein Wert von -1 einen perfekten negativen Zusammenhang. 

In unserem Fall liegt das „Spearman's Roh” bei -0,73. Der Zusammenhang ist also stark negativ.

Statistisch lässt sich deshalb folgende Aussage belegen:

Je niedriger das durchschnittliche Einkommen in einem Bezirk ist, desto höher ist die Automatendichte vor Ort.