Bevor wir in eine Analyse einsteigen, sollten wir uns einiger Eigenschaften unserer Daten bewusst sein. Darunter zählt die Herkunft unserer Daten, als auch deren Beschaffenheit.
Als erstes sollte für uns immer die Frage stellen, wie die Daten aufgenommen wurden und ob wir den Datenaufnahmeprozess vertrauen können. Damit wir dies für uns gut beantworten können, sollte eine der Datenaufnahme vorgeschaltete Messsystemanalyse zentraler Bestandteil unseres Handelns sein. Dies ist für uns durch einen Nachweis der regelmäßigen Kalibrierung nicht getan, weil diese unter Idealbedingungen abläuft und nicht alle potentiellen Streuquellen abdeckt. Die Messsystemanalyse jedoch bringt uns der Realität deutlich näher, indem sie unter anderem auch die verschiedenen Beteiligten des Messprozesses mit einbezieht. Dabei können wir Fragen klären, ob unser Messsystem nicht tendenziell zu viel oder zu wenig anzeigt, ob es über die Zeit zuverlässig stabile Aussagen liefert und ob sein Streubeitrag gering ist, im Vergleich zu den Unterschieden oder der Streuung, die wir später in unserem Prozess erkennen wollen.
Kein Messsystem ist von Werk aus gut oder schlecht. Erst das Ergebnis der Messsystemanalyse beurteilt, ob es für unseren Messauftrag geeignet oder ungeeignet ist. Das pure Vertrauen mit Hinweis auf die enormen Anschaffungskosten kann sich für uns dabei als sehr tückisch herausstellen. Ich musste schon zahlreiche Projekte miterleben, die gut geplant waren und enorme zeitliche und finanzielle Ressourcen banden und wo sich dennoch am Ende keine zufriedenstellenden Ergebnisse einstellen wollten. Nachdem ich dann ins Boot geholt wurde, stellte sich bei all diesen Projekten eine Gemeinsamkeit heraus: ein mangelndes Messsystem. Dieses Manko können wir im Nachhinein auch nicht mehr korrigieren: Unsere Daten sind dann kaum zu gebrauchen und unsere eingesetzten Ressourcen sind verschwendet. Das ist der Grund, warum wir durch die Normen auch immer aufgefordert werden, dass wir die Messsystemanalyse an den Anfang stellen.
Sollten wir bemerken, dass der Streubeitrag des Messsystems zu groß ist, müssen wir nicht zwangsläufig ein neues Messsystem anschaffen, sondern können uns mit einem Trick behelfen: Wenn wir mehre Messungen mitteln, wird dessen Streuung um das wurzelfache des Stichprobenumfangs kleiner. Definieren wir also einen Messwert als Mittelwert von vier Einzelmessungen, wird dessen Unsicherheit (Streuung) halbiert. Wichtig ist, dass wir diese Definition bei unseren späteren regulären Messungen beibehalten.
Mitteln wir jedoch jenseits dieser Definition mehrere Teile im Prozess, so täuscht dies eine scheinbar kleinere Prozessstreuung vor und unsere Analyse und dessen Ergebnisse entkoppeln sich von der Realität. Eine andere typische Realitätsentkopplung liegt vor, wenn wir ohne driftigen Grund unliebsame Daten vorschnell als Ausreißer deklarieren und aussortieren. Die Analyse mag dadurch einfacher werden - das Ergebnis hängt dann aber nicht mehr an unserem Prozess und unsere Bewertung des Prozesses ist dann nur noch Trug, welcher zu kostspieligen Fehlentscheidungen führen wird. Wir sollten also immer hinterfragen, was mit den Daten schon geschehen ist, um zu beurteilen, ob sie unseren Prozess wirklich repräsentativ beschreiben.

©iStockphoto.com/vittaya25
Für die Weiterverarbeitung unserer Daten sollten wir uns auch im Klaren sein, was für Merkmale wir vorliegen haben. Unsere Daten können wir in ‚qualitative‘ (attributive) und ‚quantitative‘ (metrische) einteilen.
Quantitative Merkmale lassen sich weiter in ‚stetig‘ und ‚diskret‘ unterteilen. Stetig bedeutet etwas direkt zu messen (beispielsweise Zeit, Geschwindigkeit, Gewicht, ...). Diskrete Merkmale liegen vor, wenn man etwas abzählt (Anzahl Fehler/Personen/usw.) Quantitative Daten zeichnen sich durch gleichartige Abstände aus: Jemand, bei dem die Waage das doppelte anzeigt ist auch doppelt so schwer. Jemand der doppelt so viel Besitz hat, ist auch doppelt so reich. Die Erhebung der Daten ist also recht objektiv.
Qualitative Merkmale lassen sich in ‚nominal‘ und ‚ordinal‘ unterteilen. Nominale Daten beschreiben Gruppen, die kein Ordnungsprinzip besitzen. Beispielsweise kann Wäsche nach dem Waschen ins rötliche, grünliche oder bläuliche verfärbt sein. Dabei ist keine Farbe besser als die andere: Verfärbt ist verfärbt. Ordinale Daten beschreiben Gruppen, die sich noch ordnen lassen, dessen Abstände aber nicht gleichartig sind. Das beste Beispiel hierfür sind Schulnoten: Die Note 4 ist nicht doppelt so schlecht wie die Note 2. Die Erhebung der Daten ist somit recht subjektiv.
Die Art der Daten schreibt auch die Nutzung vor. So ist ein sehr beliebter Irrtum aus gut-schlecht-Merkmalen Fehleranteile zu bestimmen und diese Prozentwerte als stetig anzusehen. Dahinterstecken aber nach wie vor nominale Daten. Eine andere Ungenauigkeit ist sogar Grundpfeiler unseres ganzen Schulsystems: Wenn die Note 4 nicht doppelt so schlecht wie die Note 2 ist, so dürfte am Jahresende gar nicht der Mittelwert als Ausdruck der Wissenslage des Schülers herangezogen werden.
Für den Informationsgehalt der Merkmale gilt folgendes: Stetig > Diskret > Ordinal > Nominal. Für die gleiche statistische Aussagekraft kann/muss ein schlechterer Informationsgehalt durch einen größeren Stichproben- bzw. Probandenumfang ausgeglichen werden. Generell dürfen wir davon ausgehen, dass mit größerem Umfang die Unsicherheit der Aussage aus der späteren Analyse abnimmt. Auf der anderen Seite können wir uns auch "totprüfen", da die Optimierungsfunktion in eine Sättigung läuft. Zwischen den "zu wenig und hohe Unsicherheit" und "zu viel und Ressourcenverschwendung" gibt es ein Optimum, welches für uns einen guten Kompromiss zwischen Risiko und Arbeitsaufwand darstellt. Für die meisten statistischen Methoden können wir dieses Optimum mittels geeigneter Statistiksoftware im Vorfeld bestimmen.
Auch für qualitative Daten gibt es in der Form von Bewertungssystemen die korrekte Zuordnung in Kategorien zu prüfen. Aber auch hier muss unser Probenumfang für die gleiche Aussagekraft deutlich größer sein als bei quantitativen Daten.
留言