Übungsblatt 4

Aufgabe 14

Die gemeinsame Urliste zu den Merkmalen \(X\) (“durchschnittliche Bruttolöhne/-gehälter je geleisteter Arbeitsstunde (in €)”) und \(Y\) (“Einwohnerzahl (in 1000)”) aus Aufgabe 11 sei wie folgt gegeben:

\((22.84,~10747.9)\),\(\quad\) \((22.19,~12497.1)\),\(\quad\) \((20.59,~3431.7)\),\(\quad\) \((17.06,~2515.7)\),\(\quad\) \((21.91,~660.1)\),\(\quad\) \((23.76,~1778.1)\),\(\quad\) \((23.32,~6059.6)\),\(\quad\) \((16.01,~1656.8)\),\(\quad\) \((20.51,~7945.2)\),\(\quad\) \((21.73,~17893.2)\),\(\quad\) \((21.06,~4018.9)\),\(\quad\) \((20.48,~1025.5)\),\(\quad\) \((16.87,~4177.4)\),\(\quad\) \((16.56,~2367.6)\),\(\quad\) \((19.67,~2830.1)\),\(\quad\) \((16.26,~2257.1)\)

Berechnen Sie den Pearsonschen Korrelationskoeffizienten der beiden Merkmale. Beachten Sie, dass Sie dazu einige Ergebnisse aus Aufgabe 11 verwenden können!

Lösung einblenden

Aus Aufgabe 11:

  • \(\overline{x}=20.051\)
  • \(\overline{y}=5116.375\)
  • \(s_X=2.584\)
  • \(s_Y=4681.618\)
Man erhält weiter:
\(\overline{xy}=\frac{1}{16}\sum_{i=1}^{16} x_i\cdot y_i = \frac{1}{16} ( 22.84\cdot10747.9 + 22.19\cdot12497.1+ \cdots +16.26\cdot2257.1 ) = 107523.6991\)
\(\Rightarrow s_{X,Y} = \overline{xy} - \overline{x}\cdot\overline{y} = 107523.6991 - 20.051\cdot5116.375 = 4935.264\)
\(\Rightarrow\displaystyle r_{X,Y}=\frac{s_{X,Y}}{s_X\cdot s_Y} = \frac{4935.264}{ 2.584\cdot4681.618} = 0.408\)

Erklär-Video zu Aufgabe 14

Aufgabe 15

In einer (fiktiven) Gruppe von 10 Schülern wurden die Noten der letzten Klassenarbeit in den Fächern Deutsch (Merkmal \(X\)) und Chemie (Merkmal \(Y\)) in folgender (gemeinsamen) Urliste zu \((X,Y)\) eingetragen:

(gut, sehr gut),   (gut, sehr gut),   (befriedigend, befriedigend),   (ausreichend, gut),   (sehr gut, ausreichend),   (ausreichend, gut),   (ausreichend, befriedigend),   (befriedigend, ausreichend),   (befriedigend, gut),   (sehr gut, ausreichend)

  1. Geben Sie die Mengen \(A\) und \(B\) der Merkmalsausprägungen der Merkmale \(X\) und \(Y\) an.
    Lösung einblenden
    Mengen der Merkmalsausprägungen:
    \(A = \{\)sehr gut, gut, befriedigend, ausreichend\(\}\),
    \(B = \{\)sehr gut, gut, befriedigend, ausreichend\(\}\)
  2. Erstellen Sie eine Tabelle mit den gemeinsamen (absoluten) Häufigkeiten von \(X\) und \(Y\). Ergänzen Sie die Tabelle auch um die zugehörigen Randhäufigkeiten.
    Lösung einblenden
    Gemeinsame absolute Häufigkeiten (Kontingenztabelle)
    \(X \backslash Y\) sehr gut gut befriedigend ausreichend \(h_{\cdot j}\)
    sehr gut \(0\) \(0\) \(0\) \(2\) \(2\)
    gut \(2\) \(0\) \(0\) \(0\) \(2\)
    befriedigend \(0\) \(1\) \(1\) \(1\) \(3\)
    ausreichend \(0\) \(2\) \(1\) \(0\) \(3\)
    \(h_{i\cdot}\) \(2\) \(3\) \(2\) \(3\) \(10\)
  3. Ordnen Sie jeweils den Merkmalsausprägungen von \(X\) und \(Y\) die zu der Ordnung \[ \text{"`sehr gut"'} \prec \text{"`gut"'} \prec \text{"`befriedigend"'} \prec \text{"`ausreichend"'} \] gehörenden Ränge zu. Erstellen Sie daraus die Tabelle der gemeinsamen (absoluten) Häufigkeiten für das zweidimensionale Merkmal \((\operatorname{rg}(X),\operatorname{rg}(Y))\).
    Lösung einblenden
    Ränge der Merkmalsausprägungen von \(X\) und \(Y\):
    1. Ränge von \(X\): \(\operatorname{rg}(X)_i =\sum_{\substack{a_j\le x_i\\ 1\le j \le k}} h(a_j) - \frac{h(x_i)-1}{2}\) \[ \begin{array}{c|c|c|c|c} \hline {\rule[-1.2ex]{0pt}{0pt}}x_{i} & h(x_{i}) & \sum_{\substack{a_{j}\le x_{i}\\ 1\le j \le k}} h(a_{j}) & \frac{h(x_{i})-1}{2} & \sum_{\substack{a_{j}\le x_{i}\\ 1\le j \le k}} h(a_{j}) - \frac{h(x_{i})-1}{2} \\ \hline \mbox{sehr gut} & 2 & 2 & 0.5 & 1.5\\ \mbox{gut} & 2 & 4 & 0.5 & 3.5\\ \mbox{befriedigend} & 3 & 7 & 1 & 6\\ \mbox{ausreichend} & 3 & 10 & 1 & 9\\ \end{array} \]
    2. Ränge von \(Y\): \(\operatorname{rg}(Y)_i =\sum_{\substack{b_j\le y_i\\ 1\le j \le l}} h(b_j) - \frac{h(y_i)-1}{2}\) \[ \begin{array}{c|c|c|c|c} \hline {\rule[-1.2ex]{0pt}{0pt}}y_{i} & h(y_{i}) & \sum_{\substack{b_{j}\le y_{i}\\ 1\le j \le l}} h(b_{j}) & \frac{h(y_{i})-1}{2} & \sum_{\substack{b_{j}\le y_{i}\\ 1\le j \le l}} h(b_{j}) - \frac{h(y_{i})-1}{2} \\ \hline \mbox{sehr gut} & 2 & 2 & 0.5 & 1.5\\ \mbox{gut} & 3 & 5 & 1 & 4\\ \mbox{befriedigend} & 2 & 7 & 0.5 & 6.5\\ \mbox{ausreichend} & 3 & 10 & 1 & 9\\ \end{array} \]

    Alternativ: Ränge zu \(X\) und \(Y\) aus sortierten Urlisten:

    • Sortierte Urlisten aufschreiben, “vorläufige” Ränge \(1,\ldots,n\) zuordnen.
    • Bindungen durch arithmetisches Mitteln auflösen und endgültige Ränge zuordnen.
    \(\leadsto\) Gemeinsame absolute Häufigkeiten der Ränge:
    \(\operatorname{rg}(X) \backslash \operatorname{rg}(Y)\) \(1.5\) \(4\) \(6.5\) \(9\) \(h_{\cdot j}\)
    \(1.5\) \(0\) \(0\) \(0\) \(2\) \(2\)
    \(3.5\) \(2\) \(0\) \(0\) \(0\) \(2\)
    \(6\) \(0\) \(1\) \(1\) \(1\) \(3\)
    \(9\) \(0\) \(2\) \(1\) \(0\) \(3\)
    \(h_{i\cdot}\) \(2\) \(3\) \(2\) \(3\) \(10\)
  4. Berechnen Sie den Spearmanschen Rangkorrelationskoeffizienten von \(X\) und \(Y\).
    Lösung einblenden

    Spearmanscher Rangkorrelationskoeffizient von \(X\) und \(Y\):
    Aus der Tabelle der gemeinsamen Häufigkeiten und Randhäufigkeiten der Ränge erhält man:

    • \(\overline{\operatorname{rg}(X)}=\frac{1}{10}\sum_{i=1}^{4} h(a_{i})\cdot \operatorname{rg}(a_{i}) = \frac{1}{10}\left( 2 \cdot 1.5 + 2 \cdot 3.5 + 3 \cdot 6 + 3 \cdot 9 \right) = 5.5\)
    • \(\overline{\operatorname{rg}(Y)}=\frac{1}{10}\sum_{j=1}^{4} h(b_{j})\cdot \operatorname{rg}(b_{j}) = \frac{1}{10}\left( 2 \cdot 1.5 + 3 \cdot 4 + 2 \cdot 6.5 + 3 \cdot 9 \right) = 5.5\)
    • \(\overline{\operatorname{rg}(X)^2}=\frac{1}{10}\sum_{i=1}^{4} h(a_{i})\cdot \operatorname{rg}(a_{i})^2 = \frac{1}{10}\left( 2 \cdot 2.25 + 2 \cdot 12.25 + 3 \cdot 36 + 3 \cdot 81 \right) = 38\)
    • \(\overline{\operatorname{rg}(Y)^2}=\frac{1}{10}\sum_{j=1}^{4} h(b_{j})\cdot \operatorname{rg}(b_{j})^2 = \frac{1}{10}\left( 2 \cdot 2.25 + 3 \cdot 16 + 2 \cdot 42.25 + 3 \cdot 81 \right) = 38\)
    Alternativ: \(\overline{\operatorname{rg}(X)}=\overline{\operatorname{rg}(Y)}=\frac{n+1}{2}=\frac{10+1}{2}=5.5\) (!)
    Mit der Bezeichnung \(\overline{\operatorname{rg}(X)\operatorname{rg}(Y)}:=\frac{1}{n}\sum_{i=1}^k\sum_{j=1}^l \operatorname{rg}(a_i)\operatorname{rg}(b_j)\cdot h_{ij}\) erhält man weiter \[\begin{align*} \overline{ \operatorname{rg}( X ) \operatorname{rg}( Y ) } &= \frac{1}{10} \sum_{i=1}^{4}\sum_{j=1}^{4} h_{ij} \cdot \operatorname{rg}(a_{i})\cdot \operatorname{rg}(b_{j}) \\[0.1cm] & = \frac{1}{10} ( 0 \cdot 1.5 \cdot 1.5 + 0 \cdot 1.5 \cdot 4 + 0 \cdot 1.5 \cdot 6.5 + 2 \cdot 1.5 \cdot 9\\[0.1cm] & \quad + 2 \cdot 3.5 \cdot 1.5 + 0 \cdot 3.5 \cdot 4 + 0 \cdot 3.5 \cdot 6.5 + 0 \cdot 3.5 \cdot 9\\[0.1cm] & \quad + 0 \cdot 6 \cdot 1.5 + 1 \cdot 6 \cdot 4 + 1 \cdot 6 \cdot 6.5 + 1 \cdot 6 \cdot 9\\[0.1cm] & \quad + 0 \cdot 9 \cdot 1.5 + 2 \cdot 9 \cdot 4 + 1 \cdot 9 \cdot 6.5 + 0 \cdot 9 \cdot 9 ) \\[0.1cm] & = 28.5 \end{align*}\] \(\displaystyle \Rightarrow s_{\operatorname{rg}(X)} = \sqrt{38- 5.5^2} = 2.7839\), \(\displaystyle s_{\operatorname{rg}(Y)} = \sqrt{38- 5.5^2} = 2.7839\) und
    \(\displaystyle s_{\operatorname{rg}(X),\operatorname{rg}(Y)} = 28.5 - 5.5\cdot5.5 = -1.75\)
    \(\displaystyle \Rightarrow r^{(S)}_{X, Y}=\frac{s_{\operatorname{rg}(X),\operatorname{rg}(Y)}}{s_{\operatorname{rg}(X)}\cdot s_{\operatorname{rg}(Y)}} =\frac{-1.75} {2.7839\cdot2.7839} = -0.2258\)

Erklär-Video zu Aufgabe 15

Aufgabe 16

Gegeben sei das zweidimensionale Merkmal aus Aufgabe 15.
Gehen Sie nun davon aus, dass das Bewertungssystem für die Chemie- und Deutschnoten jeweils eine Interpretation als kardinalskaliertes Merkmal durch die übliche Quantifizierung \[ \text{sehr gut} \mapsto 1,\quad \text{gut} \mapsto 2,\quad \text{befriedigend} \mapsto 3,\quad \text{ausreichend} \mapsto 4 \] zulässt, und berechnen Sie den Bravais-Pearsonschen Korrelationskoeffizienten.

Lösung einblenden

Berechnung analog zu Aufgabe 15 unter Verwendung der folgenden entsprechend abgeänderten Tabelle der gemeinsamen Häufigkeiten und Randhäufigkeiten:

\(X \backslash Y\) \(1\) \(2\) \(3\) \(4\) \(h_{\cdot j}\)
\(1\) \(0\) \(0\) \(0\) \(2\) \(2\)
\(2\) \(2\) \(0\) \(0\) \(0\) \(2\)
\(3\) \(0\) \(1\) \(1\) \(1\) \(3\)
\(4\) \(0\) \(2\) \(1\) \(0\) \(3\)
\(h_{i\cdot}\) \(2\) \(3\) \(2\) \(3\) \(10\)
  • \(\overline{x}=\frac{1}{10}\sum_{i=1}^{4} h(a_{i})\cdot a_{i} = \frac{1}{10}\left( 2 \cdot 1 + 2 \cdot 2 + 3 \cdot 3 + 3 \cdot 4 \right) = 2.7\)

  • \(\overline{y}=\frac{1}{10}\sum_{j=1}^{4} h(b_{j})\cdot b_{j} = \frac{1}{10}\left( 2 \cdot 1 + 3 \cdot 2 + 2 \cdot 3 + 3 \cdot 4 \right) = 2.6\)

  • \(\overline{x^2}=\frac{1}{10}\sum_{i=1}^{4} h(a_{i})\cdot a_{i}^2 = \frac{1}{10}\left( 2 \cdot 1 + 2 \cdot 4 + 3 \cdot 9 + 3 \cdot 16 \right) = 8.5\)

  • \(\overline{y^2}=\frac{1}{10}\sum_{j=1}^{4} h(b_{j})\cdot b_{j}^2 = \frac{1}{10}\left( 2 \cdot 1 + 3 \cdot 4 + 2 \cdot 9 + 3 \cdot 16 \right) = 8\)

  • Mit der Bezeichnung \(\overline{xy}:=\frac{1}{n}\sum_{i=1}^k\sum_{j=1}^l h_{ij} \cdot a_i \cdot b_j\) erhält man weiter \[\begin{align*} \overline{ x y } &= \frac{1}{10} \sum_{i=1}^{4}\sum_{j=1}^{4} h_{ij} \cdot a_{i}\cdot b_{j} \\[0.1cm] & = \frac{1}{10} ( 0 \cdot 1 \cdot 1 + 0 \cdot 1 \cdot 2 + 0 \cdot 1 \cdot 3 + 2 \cdot 1 \cdot 4\\[0.1cm] & \quad + 2 \cdot 2 \cdot 1 + 0 \cdot 2 \cdot 2 + 0 \cdot 2 \cdot 3 + 0 \cdot 2 \cdot 4\\[0.1cm] & \quad + 0 \cdot 3 \cdot 1 + 1 \cdot 3 \cdot 2 + 1 \cdot 3 \cdot 3 + 1 \cdot 3 \cdot 4\\[0.1cm] & \quad + 0 \cdot 4 \cdot 1 + 2 \cdot 4 \cdot 2 + 1 \cdot 4 \cdot 3 + 0 \cdot 4 \cdot 4 ) \\[0.1cm] & = 6.7 \end{align*}\] \(\displaystyle \Rightarrow s_X = \sqrt{8.5- 2.7^2} = 1.1\), \(\displaystyle s_Y = \sqrt{8- 2.6^2} = 1.1136\) und \(\displaystyle s_{X,Y} = 6.7 - 2.7\cdot2.6 = -0.32\)
    \(\displaystyle \Rightarrow r_{X, Y}=\frac{s_{X,Y}}{s_X\cdot s_Y} =\frac{-0.32} {1.1\cdot1.1136} = -0.2612\)

Erklär-Video zu Aufgabe 16

Aufgabe 17

In einem (fiktiven) Unternehmen mit 1000 Mitarbeiter(inne)n wurden in der statistischen Masse der Mitarbeiter die Merkmale Geschlecht (\(X\)) sowie (in klassierter Form) Dauer der Betriebszugehörigkeit in Jahren (\(Y\)) erhoben. Das Ergebnis ist in der folgenden Tabelle der gemeinsamen absoluten Häufigkeiten (inklusive der zugehörigen Randhäufigkeiten) zusammengefasst:

\(X \backslash Y\) \((0,5]\) \((5,10]\) \((10,15]\) \((15,20]\) \((20,25]\) \(h_{\cdot j}\)
männlich \(300\) \(128\) \(87\) \(66\) \(19\) \(600\)
weiblich \(18\) \(78\) \(121\) \(136\) \(47\) \(400\)
\(h_{i\cdot}\) \(318\) \(206\) \(208\) \(202\) \(66\) \(1000\)
  1. Geben Sie die Menge der Merkmalsausprägungen \(A\) von \(X\) bzw. \(B\) von \(Y\) an.
    Lösung einblenden
    Mengen der Merkmalsausprägungen:
    \(A = \{\) männlich, weiblich \(\}\), \(B = \{\) \((0,5]\), \((5,10]\), \((10,15]\), \((15,20]\), \((20,25]\) \(\}\)
  2. Erstellen Sie eine Tabelle mit den bedingten (relativen) Häufigkeiten von \(Y|X=a\) für alle \(a\in A\).
    Lösung einblenden
    Tabelle der bedingten relativen Häufigkeiten von \(Y|X=a_i\), \(i\in\{1,2\}\), mit \(r(b_j|X=a_i)=\displaystyle\frac{h_{ij}}{h_{i\cdot}}\):
    \(b_j\) \((0,5]\) \((5,10]\) \((10,15]\) \((15,20]\) \((20,25]\) \(\Sigma\)
    \(r(b_j|X=\mbox{männlich})\) \(0.5\) \(0.21\overline{3}\) \(0.145\) \(0.11\) \(0.031\overline{6}\) \(1\)
    \(r(b_j|X=\mbox{weiblich})\) \(0.045\) \(0.195\) \(0.3025\) \(0.34\) \(0.1175\) \(1\)
  3. Sind \(X\) und \(Y\) unabhängig? Begründen Sie Ihre Antwort!
    Lösung einblenden
    \(X\) und \(Y\) sind nicht unabhängig, da die bedingten Häufigkeiten nicht übereinstimmen;
    es gilt zum Beispiel: \(r((0,5]|X=\mbox{männlich}) = 0.5 \ne 0.045 = r((0,5]|X=\mbox{weiblich})\)
  4. Berechnen Sie den korrigierten Pearsonschen Kontingenzkoeffizient von \(X\) und \(Y\).
    Lösung einblenden
    Korrigierter Pearsonscher Kontingenzkoeffizient von \(X\) und \(Y\): \[ C_{X,Y}^{\mbox{korr}} := \sqrt{\frac{\min\{k,l\}}{\min\{k,l\}-1} \cdot \frac{\chi^2}{n+\chi^2}} \qquad\mbox{mit}\qquad \chi^2 := \sum_{i=1}^k\sum_{j=1}^l \frac{\left(h_{ij}-\frac{h_{i\cdot}\cdot h_{\cdot j}}{n}\right)^2}{\frac{h_{i\cdot}\cdot h_{\cdot j}}{n}} \]
    • \(n=1000\)
    • \(\min\{k,l\} = \min\{2,5\} = 2\)
    • Für \(\chi^2\) erhält man:
      \[\begin{align*} \chi^2 &= \sum_{i=1}^{2}\sum_{j=1}^{5} \frac{\left(h_{ij}-\frac{h_{i\cdot}\cdot h_{\cdot j}}{1000}\right)^2}{\frac{h_{i\cdot}\cdot h_{\cdot j}}{1000}}\\[0.15cm] &= \frac{\left(300-\frac{600\cdot 318}{1000}\right)^2}{\frac{600\cdot 318}{1000}} + \frac{\left(128-\frac{600\cdot 206}{1000}\right)^2}{\frac{600\cdot 206}{1000}} + \frac{\left(87-\frac{600\cdot 208}{1000}\right)^2}{\frac{600\cdot 208}{1000}} + \cdots + \frac{\left(47-\frac{400\cdot 66}{1000}\right)^2}{\frac{400\cdot 66}{1000}} \\[0.15cm] &= \frac{ 11924.64}{ 190.8} + \frac{ 19.36}{ 123.6} + \frac{ 1428.84}{ 124.8} + \cdots + \frac{ 424.36}{ 26.4} \\[0.15cm] &= \quad62.4981 + 0.1566 + 11.449 + 25.1406 + 10.7162\\ &\quad + 93.7472 + 0.235 + 17.1736 + 37.7109 + 16.0742 \\[0.15cm] &= 274.9014 \end{align*}\] \(\displaystyle\Rightarrow C_{X,Y}^{\operatorname{korr}} = \sqrt{\frac{2}{2-1} \cdot \frac{274.9014}{1000+274.9014}} = 0.6567\)
  5. Wie groß ist unter den weiblichen Betriebsangehörigen der Anteil an Mitarbeiterinnen mit einer Betriebszugehörigkeit zwischen 5 und 10 Jahren?
    Lösung einblenden
    Anteil: \(r((5,10]|X=\mbox{weiblich})=0.195\) bzw. \(19.5\%\)
  6. Wie groß ist die mittlere Betriebszugehörigkeit (in Jahren) für die beschäftigten Männer, wie groß die der beschäftigten Frauen?
    Lösung einblenden
    Mittlere Betriebszugehörigkeit (in Jahren) der Männer: \[\begin{align*} \overline{y}_{|X=\operatorname{männlich}} & = \sum_{j=1}^{5} r(b_j|X=\operatorname{männlich})\cdot m_j \\[0.15cm] & = 0.5 \cdot 2.5 + 0.21\overline{3} \cdot 7.5 + 0.145 \cdot 12.5 + 0.11 \cdot 17.5 + 0.031\overline{6} \cdot 22.5 \\[0.15cm] & = 7.3 \end{align*}\] Mittlere Betriebszugehörigkeit (in Jahren) der Frauen: \[\begin{align*} \overline{y}_{|X=\operatorname{weiblich}} & = \sum_{j=1}^{5} r(b_j|X=\operatorname{weiblich})\cdot m_j \\[0.15cm] & = 0.045 \cdot 2.5 + 0.195 \cdot 7.5 + 0.3025 \cdot 12.5 + 0.34 \cdot 17.5 + 0.1175 \cdot 22.5 \\[0.15cm] & = 13.95 \end{align*}\]

Erklär-Video zu Aufgabe 17