3.2 Häufigkeitsverteilungen klassierter Daten

Erklär-Video zum Abschnitt 3.2 (Folien 48-57)

Die bisherigen Analysemethoden, insbesondere die Erstellung von Häufigkeitsverteilungen, sind ungeeignet für stetige Merkmale und diskrete Merkmale mit sehr vielen verschiedenen Ausprägungen. Hierzu betrachten wir das folgende Beispiel einer (fiktiven) Urliste mit den (auf volle Minuten aufgerundeten) Dauern von 100 Telefonaten sowie das zugehörige Stabdiagramm:

44, 35, 22, 5, 50, 5, 3, 17, 19, 67, 49, 52, 16, 34, 11, 27, 14, 1, 35, 11, 3, 49, 18, 58, 43, 34, 79, 34, 7, 38, 28, 21, 27, 51, 9, 17, 10, 60, 14, 32, 9, 18, 11, 23, 25, 10, 76, 28, 13, 15, 28, 7, 31, 45, 66, 61, 39, 25, 17, 33, 4, 41, 29, 38, 18, 44, 28, 12, 64, 6, 38, 8, 37, 38, 28, 5, 7, 34, 11, 2, 31, 14, 33, 39, 12, 49, 14, 58, 45, 56, 46, 68, 18, 6, 11, 10, 29, 33, 9, 20

Stabdiagramm zur Urliste der Dauer von Telefonaten

Abbildung 3.3: Stabdiagramm zur Urliste der Dauer von Telefonaten

In dieser Urliste gibt es insgesamt 54 verschiedene Ausprägungen, von denen 29 nur ein einziges Mal auftreten. Eine Tabelle mit den absoluten oder relativen Häufigkeiten hätte also 54 Spalten und würde hier eine nur unzureichende Form der Aggregation darstellen. Hätte man an dieser Stelle sogar ungerundete Dauern (beispielsweise in Sekunden) aufgezeichnet, wäre die Anzahl der verschiedenen Ausprägungen typischerweise noch deutlich größer, eventuell sogar gleich der Länge der Urliste. Eine Häufigkeitsverteilung würde dann potenziell aus 100 Spalten bestehen mit den (konstanten) Einträgen 1 für die absoluten und 0.01 für die relativen Häufigkeiten und wäre damit offensichtlich nur eine ungleich kompliziertere Darstellung der ursprünglichen Urliste.

Durchführung einer Klassierung

Eine Lösung dieses Problems besteht darin, Merkmale mit (sehr) vielen verschiedenen Ausprägungen wie bereits im vorangegangenen Abschnitt erläutert zu klassieren, also jeweils (potenziell) mehrere Merkmalsausprägungen in Klassen zusammenzufassen. Zur Durchführung einer solchen Klassierung müssen zunächst die verwendeten Klassen festgelegt werden, und zwar so, dass jeder Merkmalswert der Urliste in genau einer Klasse enthalten ist.

Eine simple Möglichkeit zur Gewährleistung dieser Eigenschaft besteht darin, die Klassen als nahtlos aneinander anschließende (aber sich nicht überlappende!) Intervalle so zu wählen, dass die Untergrenze des (auf dem “Zahlenstrahl”) am weitesten links liegenden Intervalls ausreichend klein und die Obergrenze des am weitesten rechts liegenden Intervalls ausreichend groß ist. Insgesamt lässt sich eine Klassierung bestehend aus \(l\) Klassen bzw. Intervallen dann durch Vorgabe der (insgesamt \(l+1\)) Klassengrenzen \(k_0, k_1, \ldots, k_l\) festlegen, indem man aus den vorgegebenen Grenzen die \(l\) (rechtsseitig abgeschlossenen) Intervalle \[ K_1:=(k_0,k_1],\ K_2:=(k_1,k_2],\ \ldots,\ K_l:=(k_{l-1},k_l] \] bildet und bei der Wahl der Klassengrenzen \(k_0\) und \(k_l\) die erläuterten Bedingungen einhält, also dafür sorgt, dass \(k_0<x_i\le k_l\) für alle Urlisteneinträge \(x_i\) (\(i\in\{1,\ldots,n\}\)) gilt.

Neben der naheliegenden Feststellung der absoluten (und darauf aufbauend auch der relativen) Häufigkeiten durch simples Zählen, wie viele Einträge der Urliste in welcher Klasse liegen, werden zu Klassierungen (bzw. den zugrundeliegenden Daten) einige weitere Kennzahlen berechnet, die typischerweise übersichtlich in Tabellenform zusammengefasst werden. Die üblicherweise betrachteten Kennzahlen und ihre Symbolschreibweisen sind (jeweils für \(j\in\{1,\ldots,l\}\)) die

  • Klassenbreiten \(b_j\), die sich mit \(b_j := k_j - k_{j-1}\) als Differenz der Klassengrenzen ergeben,
  • Klassenmitten \(m_j\) mit \(m_j := \frac{k_{j-1}+k_j}{2}\),
  • absoluten Häufigkeiten \(h_j\) mit \(h_j := \#\left\{ i\in\{1,\ldots,n\}~|~ k_{j-1}<x_i\le k_j\right\}\),
  • relativen Häufigkeiten \(r_j\) mit \(r_j := \frac{h_j}{n}\),
  • Häufigkeitsdichten \(f_j\) mit \(f_j := \frac{r_j}{b_j}\) sowie die
  • empirischen Verteilungsfunktionswerte \(F(k_j)\) an den rechten Klassengrenzen.

Für die Urliste mit den Dauern der Telefonate erhält man beispielsweise zu einer Klassierung der Gestalt

\[ K_1 = (0,15], K_2 = (15,30], K_3 = (30,45], K_4 = (45,60], K_5 = (60,75], K_6 = (75,90] \]

die folgende tabellarische Darstellung:

Nr.

\(j\)
Klasse
\(K_j=\)
\((k_{j-1},k_j]\)
Klassen-
breite
\(b_j\)
Klassen-
mitte
\(m_j\)
absolute
Häufigkeit
\(h_j\)
relative
Häufigkeit
\(r_j=\frac{h_j}{n}\)
Häufigkeits-
dichte
\(f_j=\frac{r_j}{b_j}\)
Verteilungs-
funktion
\(F(k_j)\)
\(1\) \(( 0, 15]\) \(15\) \(7.5\) \(33\) \(0.33\) \(0.022\) \(0.33\)
\(2\) \(( 15, 30]\) \(15\) \(22.5\) \(24\) \(0.24\) \(0.016\) \(0.57\)
\(3\) \(( 30, 45]\) \(15\) \(37.5\) \(25\) \(0.25\) \(0.01\overline{6}\) \(0.82\)
\(4\) \(( 45, 60]\) \(15\) \(52.5\) \(11\) \(0.11\) \(0.007\overline{3}\) \(0.93\)
\(5\) \(( 60, 75]\) \(15\) \(67.5\) \(5\) \(0.05\) \(0.00\overline{3}\) \(0.98\)
\(6\) \(( 75, 90]\) \(15\) \(82.5\) \(2\) \(0.02\) \(0.001\overline{3}\) \(1.00\)

Histogramme zur grafischen Darstellung

Zur grafischen Darstellung klassierter Daten verwendet man üblicherweise ein sogenanntes Histogramm, welches die Klassen und die darin enthaltenen Urlisteneinträge mit Hilfe von Rechtecken visualisiert. Dabei wird zu jeder Klasse ein Rechteck gezeichnet, dessen Grundfläche gerade der Klasse selbst entspricht und dessen Höhe durch die Häufigkeitsdichte \(f_j\) gegeben ist. Es ergeben sich so also – wie im folgenden Beispiel – \(l\) Rechtecke mit den Eckpunkten \((k_{j-1},0)\) und \((k_j,f_j)\) (für \(j\in\{1,\ldots,l\}\)).

Beispiel Histogramm (I)

Abbildung 3.4: Beispiel Histogramm (I)

Um zu verstehen, warum gerade jeweils \(f_j\) als Höhe des Rechtecks gewählt wird (und nicht etwa \(r_j\)), muss man wissen, dass das menschliche Gehirn bei der Erfassung der Rechtecke die Flächeninhalte (und nicht etwa die Höhen) der Rechtecke mit der Bedeutung der Klasse assoziiert. Soll also der gewünschte Effekt der Darstellung von relativen (oder proportional und damit hier gleichbedeutend dazu absoluten) Häufigkeiten erreicht werden, muss dafür gesorgt werden, dass der Flächeninhalt eine direkte Verbindung zu den (relativen) Häufigkeiten besitzt, und das ist so gerade der Fall, da sich für die Flächeninhalte der Rechtecke (nach der bekannten Formel “Breite x Höhe”) \(b_j \cdot f_j = b_j \cdot \frac{r_j}{b_j} = r_j\) ergibt.

Nun mag man einwenden wollen, dass in der obigen Darstellung durch eine (eigentlich falsche) Verwendung von \(r_j\) als Höhe der Rechtecke gar kein anderer visueller Eindruck vermittelt würde, da sich hierduch nur die Beschriftung oder Skalierung der \(y\)-Achse ändern, die Größenverhältnisse der Rechtecke jedoch gleich bleiben würden. Dies gilt hier allerdings nur, weil alle Klassen dieselbe Breite \(b_j\equiv 15\) (für alle \(j\in\{1,\ldots,l\}\)) aufweisen und die Division durch \(b_j\) (zur Bestimmung der \(f_j\)) damit zu einer proportionalen Transformation der \(r_j\) wird. Sobald jedoch unterschiedliche Breiten \(b_j\) auftreten, verschwindet dieser proportionale Zusammenhang; die (falsche) Verwendung von \(r_j\) als Höhe der Rechtecke würde dann zu einer unbrauchbaren Darstellung führen.

In der folgenden alternativen Klassierung

\[ K_1 = (0,10], K_2 = (10,20], K_3 = (20,30], K_4 = (30,50], K_5 = (50,70], K_6 = (70,90] \]

des betrachteten Beispiels, wiederum mit 6 Klassen, nun aber mit 2 verschiedenen Klassenbreiten, erhält man zunächst die folgende tabellarische Darstellung der typischen Kenngrößen:

Nr.

\(j\)
Klasse
\(K_j=\)
\((k_{j-1},k_j]\)
Klassen-
breite
\(b_j\)
Klassen-
mitte
\(m_j\)
absolute
Häufigkeit
\(h_j\)
relative
Häufigkeit
\(r_j=\frac{h_j}{n}\)
Häufigkeits-
dichte
\(f_j=\frac{r_j}{b_j}\)
Verteilungs-
funktion
\(F(k_j)\)
\(1\) \(( 0, 10]\) \(10\) \(5\) \(20\) \(0.20\) \(0.0200\) \(0.20\)
\(2\) \(( 10, 20]\) \(10\) \(15\) \(23\) \(0.23\) \(0.0230\) \(0.43\)
\(3\) \(( 20, 30]\) \(10\) \(25\) \(14\) \(0.14\) \(0.0140\) \(0.57\)
\(4\) \(( 30, 50]\) \(20\) \(40\) \(30\) \(0.30\) \(0.0150\) \(0.87\)
\(5\) \(( 50, 70]\) \(20\) \(60\) \(11\) \(0.11\) \(0.0055\) \(0.98\)
\(6\) \(( 70, 90]\) \(20\) \(80\) \(2\) \(0.02\) \(0.0010\) \(1.00\)

Hier ist nun die Verwendung der Häufigkeitsdichten \(f_j\) als Höhen der Rechtecke (wie in der folgenden Abbildung) unabdingbar für eine brauchbare Visualisierung.

Beispiel Histogramm (II)

Abbildung 3.5: Beispiel Histogramm (II)

Informationsverlust und Näherungen

Wie im Beispiel an den beiden verschiedenen Klassierungen bereits veranschaulicht gibt es (sogar umfangreiche) Freiheiten bei der Wahl der Klassierung sowohl was die Anzahl als auch die Position beziehungsweise Breiten der Klassen angeht. Wie im einleitenden Kapitel bereits erläutert führt dies auch dazu, dass man denselben Datensatz durch unterschiedliche Wahl der Klassierung auch (bewusst oder unbewusst) möglicherweise stark unterschiedlich darstellen kann.

Um sich dem Vorwurf einer bewussten Manipulation der Perspektive nicht (oder zumindest weniger stark) aussetzen zu müssen, sollte daher in der Regel auf eine automatische Wahl von Anzahl und Position der Klassen durch die verwendete Statistik-Software zurückgegriffen werden. Bekannte Verfahren, die an dieser Stelle aber nicht weiter besprochen werden, sind zum Beispiel die Verfahren nach Scott, Sturges oder Freedman-Diaconis. Hier hat man zwar durch die Wahl des jeweiligen Verfahrens immer noch Einflussmöglichkeiten, diese sind jedoch gegenüber einer komplett freien Wahl ganz wesentlich eingeschränkt.

Die je nach konkret gewählter Klassierung unterschiedlichen Darstellungen derselben Urliste enstehen natürlich dadurch, dass – im Gegensatz zu Häufigkeitsverteilungen, wo nur die Reihenfolge der Urlisteneinträge und damit in der Regel völlig irrelevante Information verloren geht – eine Klassierung mit dem Verlust von meist nicht ganz irrelevanter Information einhergeht: nach erfolgter Klassierung weiß man nur noch, wie viele Urlisteneinträge in den jeweiligen Klassen liegen, allerdings nicht mehr, wo sich diese Urlisteneinträge genau innerhalb der Klassen befinden.

Dieser Verlust an Information, der wie bereits besprochen vielleicht auch schon bei der Datenerhebung entstanden ist, sorgt dafür, dass man die meisten Kennzahlen nur noch näherungsweise, also approximativ, berechnen beziehungsweise die meisten Verfahren nur noch näherungsweise anwenden kann. Zur Umsetzung dieser Näherungen stellt sich zunächst die Frage, wie man die fehlende Information über die Position der Urlisteneinträge in den einzelnen Klassen verarbeitet. Die übliche Vorgehensweise ist gleichzeitig auch besonders naheliegend: man unterstellt eine perfekt gleichmäßige Verteilung (im gleich näher beschriebenen Sinn) der Urlisteneinträge innerhalb der Klassen.

Erfahrungsgemäß etwas schwierig ist das Verständnis dafür, was perfekt gleichmäßig in diesem Zusammenhang genauer bedeuten sollte. Zur Erläuterung betrachten wir ein besonders einfaches und minimalistisches Beispiel mit einer einzigen Klasse \(K_1=(0,1]\) und einer Urliste vom Umfang \(n=1\), es gibt also nur einen Urlisteneintrag \(x_1\), über den man lediglich die Information \(0<x_1\le 1\) hat. In einem ersten Ansatz könnte man auf die Idee kommen, die perfekt gleichmäßige Verteilung dieses einzelnen Urlisteneintrags im Intervall \((0,1]\) durch die Annahme \(x_1=0.5\) umzusetzen, den einzigen Urlisteneintrag also als Näherung in der Mitte des Intervalls zu fixieren.

Dieser Ansatz ist nicht ganz unsinnig und würde sogar bei einigen der später betrachteten Verfahren rechnerisch dieselben Ergebnisse liefern wie die gleich beschriebene, vielseitigere Umsetzung der Näherung. Die Problematik dieses ersten Ansatzes wird offensichtlich, wenn wir dessen Effekt auf die genäherten relativen Häufigkeiten von Intervallen untersuchen: obwohl mit der Näherung zum Ausdruck gebracht werden soll, dass die Position des Urlisteneintrags innerhalb der Klasse völlig unbekannt ist, würde der erste Ansatz als relative Häufigkeiten für die Intervalle \((0,0.4]\), \((0.4,0.7]\) sowie \((0.7,1]\) offensichtlich \(r((0,0.4])=0\), \(r((0.4,0.7])=1\) sowie \(r((0.7,1])=0\) liefern. Diese Ergebnisse passen natürlich nicht zu einer perfekt gleichmäßigen Verteilung, bei der man relative Intervallhäufigkeiten proportional zur Länge der Intervalle erwarten würde, also \(r((0,0.4])=0.4\), \(r((0.4,0.7])=0.3\) sowie \(r((0.7,1])=0.3\). Eine generelle Umsetzung der Näherung durch Festlegung einer fiktiven, genäherten Urliste ist also nicht für alle Anwendungen erfolgversprechend.3

Die Lösung der Problematik liegt darin begründet, dass die oben geschilderte erwartete Eigenschaft für die Intervallhäufigkeiten bereits zur Festlegung der Näherung ausreicht; faktisch haben wir diese Art der Näherung auch bereits gesehen, als wir die Histogramme zur grafischen Darstellung kennengelernt haben: hier werden die einzelnen Klassen als Rechtecke (mit konstanter Höhe bzw. waagerechter Oberkante) und nicht etwa als (rechtwinklige) Trapeze (mit linear steigender oder fallender Oberkante) oder Stabdiagrammen mit Stäben an einzelnen Werten innerhalb der Klassen dargestellt. Damit lassen sich nicht nur die relativen Häufigkeiten ganzer Klassen mit dem Flächeninhalt des zugehörigen Rechtecks im Histogramm assoziieren, sondern darüberhinaus auch die Flächeninhalte von Teilen einer Klasse mit der zugehörigen relativen Häufigkeit des Teilintervalls (der Klasse) und sogar die (klassenübergreifenden) Flächeninhalte von Teilen des kompletten Histogramms mit den relativen Häufigkeiten der (klassenübergreifenden) zugehörigen Intervalle.

Approximative empirische Verteilungsfunktion

Über den bereits bekannten bestehenden Zusammenhang zwischen Intervallhäufigkeiten und der empirischen Verteilungsfunktion können wir für letztgenannte unmittelbar eine Näherung konstruieren, die sogenannte approximative beziehungsweise näherungsweise bestimmte empirische Verteilungsfunktion. Für die Herleitung dieser Funktion hat man gleich mehrere Möglichkeiten, die sich prinzipiell alle auf den Zusammenhang \(F(x) = r((-\infty,x])\) und den eben erläuterten Zusammenhang zwischen relativen Häufigkeiten und den Flächeninhalten im Histogramm begründen. Im Kern geht es also darum, eine “Formel” zur Berechnung der Flächeninhalte im Histogramm über Intervallen der Form \((-\infty,x]\) für beliebiges \(x\in\mathbb{R}\) zu entwickeln.

Eine ganz naheliegende Möglichkeit hierzu ist natürlich, die durch die Häufigkeitsdichten gebildete “Oberkante” der Rechtecke im Histogramm als Häufigkeitsdichtefunktion in Abhängigkeit der Position \(x\) aufzufassen und den Flächeninhalt zwischen der \(x\)-Achse und dieser (nichtnegativen) Funktion über ein Integral zu berechnen. Wir werden jedoch einen alternativen Ansatz betrachten, der ohne Berechnung von Integralen auskommt und deshalb (hoffentlich) leichter verständlich ist, auch wenn hierzu (ebenfalls) etwas Schulmathematik benötigt wird.
Bei Interesse können Sie sich die Herleitung über Integrale dennoch hier einblenden.
Definiert man die Häufigkeitsdichtefunktion abschnittsweise gemäß \[f(x) = \left\{\begin{array}{cl} f_j & \text{für}\ k_{j-1} < x \le k_j \\ 0 & \text{sonst} \end{array}\right.\ ,\] so kann die genäherte Verteilungsfunktion zunächst als \[F(x) = r((-\infty,x]) = \int_{-\infty}^x f(t) dt\] dargestellt werden. Nach den bekannten Integrationsregeln kann dieses Integral für \(k_{j-1}<x\le k_j\), also für \(x\in K_j\), berechnet werden durch \[F(x) = \underbrace{\int_{-\infty}^{k_{j-1}} f(t) dt}_{=F(k_{j-1})} + \int_{k_{j-1}}^x \underbrace{f(t)}_{=f_j} dt = F(k_{j-1}) + \left[f_j\cdot t\right]_{k_{j-1}}^x = F(k_{j-1}) + f_j\cdot (x-k_{j-1})\ ,\] wobei die hier verwendeten Werte \(F(k_{j-1})\) auch nach erfolgter Klassierung exakt bekannt (und typischerweise in der letzten Spalte der tabellarischen Kenngrößenübersicht enthalten) sind. Da für \(x\le k_0\) der Integrand \(f(t)\) im Intervall \((-\infty,x]\) stets \(0\) ist und damit auch Integrale hierüber den Wert \(0\) haben, außerdem für \(x>k_l\) die Zerlegung \[F(x) = \underbrace{\int_{-\infty}^{k_l} f(t) dt}_{=F(k_l)=1} + \int_{k_l}^x \underbrace{f(t)}_{=0} dt = 1\] gilt, erhält man insgesamt die folgende Darstellung der approximativen empirischen Verteilungsfunktion: \[ {F}(x) = \left\{\begin{array}{ccl} 0 & \text{für} & x \le k_0 \\[0.3em] F(k_{j-1}) + f_j\cdot (x-k_{j-1}) & \text{für} & k_{j-1} < x \le k_j,\ j\in\{1,\ldots,l\} \\[0.3em] 1 & \text{für} & x > k_l \\ \end{array}\right. \]
Der alternative Ansatz verwendet aus der Integrationsrechnung lediglich das Wissen, dass Stammfunktionen konstanter Funktionen linear sind, damit also die zur Flächenberechnung nötigen Integrale über die (konstanten) Häufigkeitsdichten (abschnittsweise) lineare Funktionen sind. Da man aber die exakten Werte der empirischen Verteilungsfunktion an den Klassengrenzen auch nach erfolgter Klassierung kennt (und typischerweise in der letzten Spalte der tabellarischen Darstellung notiert hat), benötigt man zur Konstruktion der Näherung nur noch eine lineare Interpolation dieser Stützstellen. Diese lässt sich leicht aus der Zwei-Punkte-Form einer Geradengleichung durch die Punkte \((x_1,y_1)\) und \((x_2,y_2)\) in der bekannten Gestalt \[ y = y_1 + \frac{y_2-y_1}{x_2-x_1} \cdot (x-x_1)\] herleiten, man erhält so mit \(y_1\mathrel{\widehat{=}}F(k_{j-1})\), \(y_2\mathrel{\widehat{=}}F(k_{j})\), \(x_1\mathrel{\widehat{=}}k_{j-1}\), \(x_2\mathrel{\widehat{=}}k_j\) sowie \(y\mathrel{\widehat{=}}F(x)\) für \(x\in\mathbb{R}\) mit \(k_{j-1}<x\le k_j\) die Darstellung \[ F(x) = F(k_{j-1}) + \underbrace{\frac{\overbrace{F(k_j)-F(k_{j-1})}^{r_j}}{\underbrace{k_j-k_{j-1}}_{b_j}}}_{f_j} \cdot (x-k_{j-1})\ . \] Für \(x\le k_0\) ist der Flächeninhalt des Histogramms über dem Intervall \((-\infty,x]\) offensichtlich \(0\), da das Intervall keine einzige Klasse berührt, für \(x>k_l\) wiederum ist der Flächeninhalt ebenfalls offensichtlich \(1\), da das Intervall \((-\infty,x]\) alle Klassen umfasst und der Flächeninhalt des kompletten Histogramms als Summe aller relativen Klassenhäufigkeiten stets \(1\) ergibt. Damit erhält man insgesamt die folgende Darstellung der approximativen empirischen Verteilungsfunktion:
Approximative Verteilungsfunktion bei klassierten Daten:
\[{F}(x) = \left\{\begin{array}{ccl} 0 & \text{für} & x \le k_0 \\[0.3em] F(k_{j-1}) + f_j\cdot (x-k_{j-1}) & \text{für} & k_{j-1} < x \le k_j,\ j\in\{1,\ldots,l\} \\[0.3em] 1 & \text{für} & x > k_l \\ \end{array}\right.\]

Zur Vertiefung des Verständnisses lohnt es sich, in der obigen Herleitung ausgehend vom Endergebnis noch einmal ein kleines Stück rückwärts zu gehen und die folgende leicht modifizierte Darstellung für \(k_{j-1}<x\le k_j\) zu betrachten: \[ F(x) = \underbrace{F(k_{j-1})}_{=\sum_{k=1}^{j-1} r_k}\qquad + \qquad r_j \qquad \cdot \underbrace{\frac{x-k_{j-1}}{b_j}}_{\text{Anteil der Klasse}\ K_j\ \text{"links" von}\ x} \] Man erhält so die intuitive Berechnung des Flächeninhalts des Histogrammteils über dem Intervall \((-\infty,x]\) als Zerlegung in den Flächeninhalt \(\sum_{k=1}^{j-1} r_k\) aller Klassen, die vollständig im Intervall \((-\infty,x]\) liegen (diese Summe ist leer und hat damit den Wert \(0\), falls \(j=1\) gilt, also keine Klasse komplett abgedeckt wird), und den vom Intervall \((-\infty,x]\) abgedeckten Anteil \(r_j\cdot\frac{x-k_{j-1}}{b_j}\) der relativen Häufigkeit der \(j\)-ten Klasse.

Eine wichtige Eigenschaft dieser Art der Näherung ist, dass die Annahme einer perfekt gleichmäßigen Verteilung der Urlisteneinträge innerhalb der Klassen dazu führt, dass relative Häufigkeiten \(r(x)\) einzelner Werte \(x\in\mathbb{R}\) stets \(0\) betragen. Da dieses Verständnis später in der Wahrscheinlichkeitsrechnung noch einmal sehr wichtig wird, lohnt sich auch hier bereits eine Illustration basierend auf unserem minimalistischen Beispiel (mit nur einer einzigen Klasse \(K_1=(0,1]\), die [dann erzwungenermaßen] relative Häufigkeit \(r_1=1\) und somit wegen \(b_1=1\) auch Häufigkeitsdichte \(f_1=1\) besitzt). Flächeninhalte von Histogrammteilen zu Teilintervallen des Einheitsintervalls entsprechen hier also einfach den Breiten der betrachteten Teilintervalle. Nähert man sich nun beispielsweise dem Wert \(x=\frac{1}{3}=0.\overline{3}\) über Intervalle der Gestalt \[[0.3,0.4], [0.33,0.34], [0.333,0.334], [0.3333,0.3334], \ldots, \] so erhält man für diese Intervalle offensichtlich die relativen Intervallhäufigkeiten \[0.1, 0.01, 0.001, 0.0001, \ldots\ .\] Im Grenzübergang dieser Intervallschachtelung erhält man offensichtlich die relative Häufigkeit \(0\) für \(x=\frac{1}{3}=0.\overline{3}\), und dies ist ebenso offensichlich nicht in dem konkreten Wert von \(x\) begründet, sondern lässt sich so für alle \(x\in[0,1]\) nachvollziehen.

Beispiel zur approximativen empirischen Verteilungsfunktion

Am Beispiel der Telefondauern und der zweiten betrachteten Klassierung \[ K_1 = (0,10], K_2 = (10,20], K_3 = (20,30], K_4 = (30,50], K_5 = (50,70], K_6 = (70,90] \] erhält man für die approximative empirische Verteilungsfunktion somit: \[ F(x) = \left\{\begin{array}{ccl} 0 & \mbox{für} & x \le 0 \\[0.3em] 0.0200\cdot (x- 0) & \mbox{für} & 0 < x \le 10 \\[0.3em] 0.20 + 0.0230\cdot (x- 10) & \mbox{für} & 10 < x \le 20 \\[0.3em] 0.43 + 0.0140\cdot (x- 20) & \mbox{für} & 20 < x \le 30 \\[0.3em] 0.57 + 0.0150\cdot (x- 30) & \mbox{für} & 30 < x \le 50 \\[0.3em] 0.87 + 0.0055\cdot (x- 50) & \mbox{für} & 50 < x \le 70 \\[0.3em] 0.98 + 0.0010\cdot (x- 70) & \mbox{für} & 70 < x \le 90 \\[0.3em] 1 & \mbox{für} & x > 90 \\ \end{array}\right. \]

An der folgenden grafischen Darstellung ist insbesondere die lineare Interpolation der an den mit Punkten gekennzeichneten Stützstellen der dort noch exakt bekannten empirischen Verteilungsfunktionswerte zu erkennen. Um die Abweichungen der Näherung von der exakten, direkt aus der Urliste bestimmten empirischen Verteilungsfunktion am Beispiel beurteilen zu können, ist diese exakte empirische Verteilungsfunktion zusätzlich (als Treppenfunktion) in die Grafik aufgenommen.

Beispiel approximative empirische Verteilungsfunktion

Abbildung 3.6: Beispiel approximative empirische Verteilungsfunktion

Mit den bekannten Formeln können nun auch (genäherte) relative Intervallhäufigkeiten beliebiger Intervalle mit Hilfe der approximativen empirischen Verteilungsfunktion berechnet werden. Da wie bereits erläutert bei Verwendung der Näherung \(r(x)\equiv 0\) für alle \(x\in\mathbb{R}\) gilt, können Terme der Art \(r(a)\) bzw. \(r(b)\) aus den Formeln auch gleich ignoriert werden; anders ausgedrückt spielt es hier keine Rolle mehr, ob die Intervallgrenzen zu den Intervallen dazugehören oder nicht. So erhält man im betrachteten Beispiel mit der Klassierung \[ K_1 = (0,10], K_2 = (10,20], K_3 = (20,30], K_4 = (30,50], K_5 = (50,70], K_6 = (70,90] \] als genäherte relative Intervallhäufigkeit \(r((15,40])\) für das Intervall \((15,40]\) (genauso wie für die Intervalle \((15,40)\), \([15,40)\) oder \([15,40]\)) \[\begin{align*} r((15,40]) &= F(40) - F(15) = \left[ 0.57 + 0.015 \cdot (40 - 30)\right] - \left[ 0.2 + 0.023 \cdot (15 - 10)\right] \\ &= 0.72- 0.315 = 0.405 = 40.5\%\ . \end{align*}\]

Die exakte (aus der Urliste bestimmte) relative Intervallhäufigkeit beträgt in diesem Beispiel übrigens 43%.

Die analogen Ergebnisse für die alternative Klassierung können Sie hier einblenden.

Am Beispiel der Telefondauern und der zuerst betrachteten Klassierung \[ K_1 = (0,15], K_2 = (15,30], K_3 = (30,45], K_4 = (45,60], K_5 = (60,75], K_6 = (75,90] \] erhält man für die approximative empirische Verteilungsfunktion stattdessen: \[ F(x) = \left\{\begin{array}{ccl} 0 & \mbox{für} & x \le 0 \\[0.3em] 0.022\cdot (x- 0) & \mbox{für} & 0 < x \le 15 \\[0.3em] 0.33 + 0.016\cdot (x- 15) & \mbox{für} & 15 < x \le 30 \\[0.3em] 0.57 + 0.01\overline{6}\cdot (x- 30) & \mbox{für} & 30 < x \le 45 \\[0.3em] 0.82 + 0.007\overline{3}\cdot (x- 45) & \mbox{für} & 45 < x \le 60 \\[0.3em] 0.93 + 0.00\overline{3}\cdot (x- 60) & \mbox{für} & 60 < x \le 75 \\[0.3em] 0.98 + 0.001\overline{3}\cdot (x- 75) & \mbox{für} & 75 < x \le 90 \\[0.3em] 1 & \mbox{für} & x > 90 \\ \end{array}\right. \]

In der folgenden grafischen Darstellung ist nun neben der approximativen empirischen Verteilungsfunktion zur hier betrachteten Klassierung (in schwarz) zusätzlich die zugehörige Näherung zur eben betrachteten Klassierung (in grau) eingetragen, um die durch unterschiedliche Wahl der Klassierung entstehenden Unterschiede bei den Näherungen zu veranschaulichen.

Vergleich approximativer empirischer Verteilungsfunktionen

Abbildung 3.7: Vergleich approximativer empirischer Verteilungsfunktionen

Für die nun betrachtete Klassierung \[ K_1 = (0,15], K_2 = (15,30], K_3 = (30,45], K_4 = (45,60], K_5 = (60,75], K_6 = (75,90] \] erhält man als genäherte relative Intervallhäufigkeit \(r((15,40])\) für das Intervall \((15,40]\) damit \[\begin{align*} r((15,40]) &= F(40) - F(15) = \left[ 0.57 + 0.01\overline{6} \cdot (40 - 30)\right] - 0.33 \\ &= 0.73\overline{6}- 0.33 = 0.40\overline{6} = 40.\overline{6}\%\ . \end{align*}\]

Wir werden weitere Näherungen bei der Verwendung klassierter Daten bald im Zusammenhang mit den für die (regulären) Häufigkeitsverteilungen exakt anzuwendenden Verfahren beziehungsweise exakt zu berechnenden Kennzahlen kennenlernen, insbesondere auch für die im folgenden Abschnitt betrachteten Lagemaße und spezieller Mittelwerte.


  1. Die Festetzung auf den konkreten Wert \(0.5\) ist hier offensichtlich auch nicht entscheidend.