Zurück |  Hoch | Weiter

Statistik

Das zentrale Problem der Wissenschaft ist es, eine Messung sorgfältig durchzuführen.
Die Statistik befasst sich mit der Sammlung, dem Zusammenstellen und der Analyse von Zahlenmaterial. Bei statistischen Erhebungen fallen i.d.R. haufenweise Einzeldaten an, welche zu einer unüberschaubaren Datenmenge werden. Mit Hilfe der Wahrscheinlichkeitsrechnung können Wahrscheinlichkeitsverteilungen näherungsweise bestimmt werden. Die Ergebnisse können dann zur Analyse statistischer Daten verwendet werden.

Arten von Statistik

  • deskriptive Statistik (beschreibende Statistik, empirische Statistik):

Dieser Bereich der Statistik befasst sich mit der geeigneten Beschreibung und Zusammenfassung vorliegender Daten. Mit ihren Methoden werden quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen verdichtet. So wird mit der deskriptiven Statistik versucht, die unüberschaubare Datenmenge auf möglichst wenige, aber aussagekräftige Zahlen zu reduzieren.

  • induktive Statistik (schließende Statistik, mathematische Statistik):

Bei der induktiven Statistik werden aus den Daten einer Stichprobe Rückschlüsse auf die Eigenschaften einer Grundgesamtheit gemacht. Erforderliche Verfahren gehen aus der Wahrscheinlichkeitstheorie hervor.

  • explorative Statistik (hypothesen-generierende Statistik, Data Mining):

Im Bereich der explorativen Statistik werden mögliche Zusammenhänge bzw. Unterschiede zw. Daten in vorhandenen Datenbeständen mit Hilfe deskriptiver systematisch gesucht und zugleich in ihrer Stärke und Ergebnissicherheit zu bewerten versucht. Die Ergebnisse stellen Hypothesen dar, welche durch induktive Verfahren abgesichert werden.

Messniveaus

Bei der Auswertung und Absicherung von Daten muss darauf geachtet werden, welches Messniveau die Datenmerkmale besitzen. Im Folgenden werden die unterschiedlichen Messniveaus aufgeführt und kurz erläutert.

  • Nominales Messniveau:

Wenn sich die Merkmalsausprägungen beliebig umordnen lassen, spricht man von Merkmalen mit nominalem Messniveau. Beispiele: Geschlecht, Beruf

  • Ordinales Messniveau:

Merkmale mit ordinalem Messniveau besitzen eine feste Reihenfolge. Die Abstände zw. den Merkmalen sind aber nicht bekannt. Beispiel: Noten

  • Quantitatives Messniveau (metrische Daten):

Liegen Daten mit quantitativem Messniveau vor, so lassen sich deren Merkmalsausprägungen ordnen und deren Abstände angeben. Die Bildung von Summen und Differenzen ist hier inhaltlich sinnvoll
Beispiel: Häufigkeiten

Aufbereitung der Daten:

Für eine klare Analyse der Daten ist es erforderlich, diese zu ordnen, zu tabellieren und darzustellen.

Urliste

Zu Beginn werden die Messungen für jede statistische Einheit durchgeführt und auf einer Urliste notiert. In die Urliste werden die Daten in der Reihenfolge ihrer Entstehung aufgezeichnet. Sie enthält den maximalen Grad an Information.

Beispiel:

NummerGeschlechtBerufAlterKinderzahl
1wKauffrau422
2wStudentin230
3mSchlosser33unbekannt
Nwunbekannt290


Aufgrund der Unübersichtlichkeit dieser Urliste und der schwierigen Identifikation wesentlicher Merkmale, muss diese im weiteren Verlauf vereinfacht werden. Hierdurch entstehen natürlich Informationsverluste.

Datenmatrix

Als nächstes können die Daten kodiert und anschließend in eine Datenmatrix übertragen werden.

Beispiel:

VariableMerkmalsausprägungKodierung
Geschlechtm1
w2
unbekannt-9999
BerufArbeiter1
Angestellter2
Sonstiges3
unbekannt-9999
Alterx = Altersangabe in Jahrenx
Unbekannt-9999
Kinderzahlx = Kinderzahlx
unbekannt-9999


Datenmatrix:

NummerGeschlechtBerufAlterKinderzahl
122422
223230
31133-9999
N2-9999290

Mit Hilfe dieser Datenmatrix kann eine Häufigkeitsverteilung vorgenommen werden.

Häufigkeitsverteilung

Für die Datenanalyse müssen zunächst für jedes Merkmal die Daten zusammengefasst werden. Aus jeweils einer Spalte der Datenmatrix wird die absolute Häufigkeit jeder Merkmalsprägung errechnet. Die relative Häufigkeit (p) ergibt sich aus der absoluten Häufigkeit einer Prägung, bezogen auf alle Merkmalsprägungen (Summe = 1). Der Vorteil von relativen Häufigkeiten ist, dass Grundgesamtheiten oder Stichproben unterschiedlicher Größe miteinander verglichen werden können. Relative Häufigkeiten sollten jedoch nur angegeben werden, wenn die Menge an vorhandenen Daten groß genug ist, um eine Angabe in Prozent auch rechtfertigen zu können. Für den Fall einer Meinungsumfrage ist es z.B. nicht sinnvoll die Ergebnisse relativ anzugeben, wenn sich die Anzahl der Umfrageteilnehmer nur auf zehn Personen beschränkt. Die Anzahl der Teilnehmer sollte natürlich immer in der Auswertung mit angegeben werden.

Wenn sehr viele verschiedene Merkmalsausprägungen vorliegen, müssen diese zunächst in Klassen (k) eingeteilt werden, um sie zu reduzieren und geeignet darstellen zu können.

Oft empfiehlt es sich, Bereiche in denen viele Werte angesiedelt sind, als Klassenmitte zu wählen. Daher bestehen bei Klasseneinteilungen oft keine äquidistanten Grenzen.



Beispiel:

kuntere Klassengrenzeobere KlassengrenzeKlassenmitteAbsolute Häufigkeitrelative Häufigkeit
10unter 10050270.135
2100unter 200150490.245
3200unter 300250370.185
4300unter 400350280.140
54001000700590.295
2001.000

Die Verwendung offener Klassen (untere Grenze (αk) = -∞ bzw. obere Grenze (αk+1) = +∞) sollte vermieden werden, da sie dann nicht mehr metrisch sind. Außerdem sollten aufgrund guter Handhabbarkeit überschaubare Klassenzahlen verwendet werden.

Graphische Darstellung

Die Darstellung eines Merkmals mit wenigen Ausprägungen erfolgt in einem Stab- oder Kreisdiagramm.

Stabdiagramm: Auf der Ordinate werden die Häufigkeiten und auf der Abszisse die Merkmalsausprägungen aufgetragen.

Kreisdiagramm: Der Winkel α der Kreissektoren ist proportional zur rel. Häufigkeit

Klassen werden in Stabdiagrammen oder Histogrammen dargestellt

Histogramm: Bei einem Histogramm werden Rechtecke über die Klassenintervalle [;] errichtet. Die Fläche eines Rechtecks stellt die rel. Häufigkeit der jeweiligen klassifizierten Merkmalsausprägung dar. Aufgrund verschieden großer Intervalle kann die Rechteckbreite variieren. Die Höhe muss dementsprechend angepasst werden. Höhe: , k=1,…,K Da die Breite der Klassen berücksichtigt wird, ist die Höhe der Rechtecke nicht mit der rel. Häufigkeit gleichzusetzen.

Des Weiteren ist zu beachten, dass kein Histogramm erstellt werden kann, falls offene Klassen vorliegen.

Lagemaße

Ziel der Lageparameter ist es, das Charakteristikum der Daten durch eine einzige Zahl auszudrücken. Das ermittelte Lagemaß ist i.d.R. umso repräsentativer, je mehr Werte in der Berechnung des Lagemaßes einfließen. Die Wahrscheinlichkeit, dass Ausreißer das Ergebnis maßgeblich reduzieren, wird somit z.B. reduziert.

Es seien die Messwerte oder Umfrageergebnisse:

Arithmetisches Mittel

ein Vorteil des arithmetischen Mittels ist die einfache Berechnung. Nachteilig ist jedoch, dass ausreißende Werte das Ergebnis verfälschen.

Das arithmetische Mittel ist nur auf metrische Variablen anwendbar.

Gewichtetes arithmetisches Mittel

    ,  … Gewichte

Ein Beispiel für die Verwendung des gewichteten arithmetischen Mittels ist die Berechnung der Note des universitären Abschlusses. Die Credits stellen in diesem Fall die Gewichte dar.

Wenn die Summe der Gewichte 1 ergibt, dann kann folgende Formel verwendet werden:

Vorteil dieser Mittelwertbildung ist, dass die unterschiedlichen Bedeutungen der Einzelwerte berücksichtigt werden. Ausreißer verfälschen jedoch auch bei dieser Mittelwertbildung das Ergebnis.

Das gewichtete arithmetische Mittel ist nur auf metrische Variablen anwendbar.

Medianwert ( )

Wenn die x-Werte numerisch angeordnet sind und n ungerade ist, so ist der Medianwert der Wert, der in der Mitte dieser Reihe steht. Ist n gerade, so ist er das arithmetische Mittel der mittleren beiden Werte.

Beispiel:
- 1, 3, 6, 7, 9, 9, 10 Medianwert: 7
- 1, 3, 6, 7, 9, 9, 10, 12 Medianwert:

Der Median ist im Allgemeinen ein guter Mittelwert, da bei diesem die Ausreißer nicht das Ergebnis verfälschen.

Der Median ist nur für metrische Variablen geeignet.

Modalwert (M)

Der Modalwert ist derjenige Wert, welcher am häufigsten vorkommt.

Wenn zwei oder mehrere verschiedene Werte gleich häufig auftreten, doch keiner öfter, hat die Menge der x keinen Modalwert oder ist multimodal. Bei solchen Verteilungen macht es jedoch keinen Sinn, die Modalwerte anzugeben, da sie kein sinnvolles Ergebnis liefern.


Streuungsmaße

Die Angabe des Lagemaßes reicht in den meisten Fällen nicht aus, oder ist sogar nicht möglich, da z.B. die Abstände zw. den gemittelten Werten nicht gleich sind. Es ist daher erforderlich, zusätzlich zum Lagemaß ein Streuungsmaß aufzuführen. Das Streuungsmaß gibt einen Hinweis darüber, wie gut die Urliste durch den Mittelwert repräsentiert wird. Durch dieses Maß ist z.B. ersichtlich, ob sich die Werte um einen Mittelwert häufen oder ob sie mehr oder weniger gleichmäßig über das ganze Spektrum verstreut sind.

Spannweite (R)

Die Spannweite ist das einfachste zu ermittelnde Streuungsmaß. Es gibt an, wie breit der Bereich ist, über den sich die ermittelten Werte erstrecken.
Nachteilig ist jedoch, dass nur zwei extreme Werte zur Berechnung der Streuung verwendet werden. Es wird also nur ein kleiner Teil der Dateninformationen genutzt.

Standardabweichung (σ)

 	, N…Grundgesamtheit

Die Varianz ist die durchschnittliche quadratische Abweichung vom Mittelwert. Große Abweichungen werden überproportional gewichtet.

Für eine Stichprobe gilt:

Wenn die Daten klassifiziert sind, müssen die Gewichtungen berücksichtigt werden:

	(für die Grundgesamtheit)
	(für die Stichprobe)

Bei geringer Standardabweichung häufen sich die Messungen um den Mittelwert. Bei einer großen Standardabweichung sind sie weit verstreut.

Standardabweichung und Varianz sind nur für metrische Variablen definiert. Die Standardabweichung darf nur auf Normalverteilungen angewendet werden.

Bei der Auswertung sollte die Standardabweichung immer mit angegeben werden. Bei Umfragen kann so eine Aussage darüber getroffen werden, ob die Meinungen der Umfrageteilnehmer nah bei einander liegen oder ob starke Meinungsverschiedenheiten bestehen.

Variationskoeffizient (v)

Zum Vergleich von Streuungen verschiedener Grundgesamtheiten bzw. Stichproben kann der Variationskoeffizient herangezogen werden. Es ist ein dimensionsloses Streuungsmaß.

Fehlerrechnung

Messergebnisse sind immer mit einem gewissen Messfehler behaftet. Dieses ist die Differenz zwischen der gemessenen Größe und des wahren Wertes. Falls mehrere Messgrößen vorliegen, pflanzen sich die Messfehler in der Rechnung fort. In der Fehlerrechnung wird versucht, die Einflussnahme der Messfehler auf das Ergebnis in Zahlen zu fassen. Die Fehlerrechnung sollte bei jeder Auswertung von Daten mit einfließen.

Die Messfehler der Messgeräte sind durch Messgenauigkeiten vorgegeben und können so für die Auswertung der Messung berücksichtigt werden. Über zufällige Fehler kann erst eine Aussage getroffen werden, wenn man mehrere Messungen vorgenommen hat. Bei n Messungen wird nach einem möglichst guten Näherungswert am wahren Messwert gesucht.

Der mittlere Fehler je Messung ergibt sich aus folgender Formel:


Aufgrund der Fehlerwahrscheinlichkeit von Messdaten, empfiehlt es sich des Weiteren, Toleranzen zu setzen. Werte, welche sich außerhalb dieser Toleranz befinden, können dann für die folgende Datenaufbereitung vernachlässigt werden. Bei der Darstellung der Ergebnisse müssen jedoch auch die verwendeten Toleranzen angegeben und unter Umständen abweichende Werte benannt werden.


Zurück |  Hoch | Weiter

This article is issued from Wikibooks. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.