it-swarm.com.de

Wann ist statistische Signifikanz wichtig?

Wann ist die statistische Signifikanz eines Usability-Tests von Bedeutung?

Ich frage, weil Steve Krug in einem kürzlich erschienenen Boagworld-Podcast darüber spricht, wie er das Testen mit nur drei Benutzern empfiehlt. Auf die Frage, ob dies statistisch signifikant ist, sagt er nein und erklärt weiter, dass es, um es mit anderen Worten zu sagen, nicht wirklich wichtig ist, da einige Probleme dazu führen, dass jeder bei bestimmten Schritten hinfällt.

15
Philip Morton

Es besteht kein Widerspruch zwischen der statistischen Signifikanz und der Durchführung von Usability-Tests mit 3 bis 5 Benutzern. Technisch bedeutet „statistische Signifikanz“, dass die Ergebnisse, die Sie sehen, nicht plausibel dem Zufall zugeordnet werden können. In der wissenschaftlichen Forschung, in der die Kosten für die Meldung von falschen Ergebnissen hoch sind, wird „plausibel“ im Allgemeinen als eine Wahrscheinlichkeit von 0,05 oder höher definiert. Es gibt verschiedene Probleme, wenn dies auf einen Usability-Test von nur drei Personen angewendet wird.

Zunächst hängt das Signifikanzniveau Ihrer Ergebnisse nicht nur von der Stichprobengröße ab, sondern auch von der Stärke des beobachteten Effekts (d. H. Wie unterschiedlich er von Ihrer Nullhypothese ist). Sie können bei kleinen Stichprobengrößen eine Bedeutung haben, wenn die Größe groß genug ist. Wie groß ist die Größe eines Usability-Tests? Womit vergleichen Sie Ihren Effekt?

Wenn Sie die Binomialberechnungen ausführen, stellt sich heraus, dass wenn 3 von 3 Ihrer Benutzer ein ernstes Problem mit Ihrem Produkt haben, bei einem Signifikanzniveau von 0,05 mindestens 36% der Bevölkerung = wird auch das gleiche ernsthafte Problem mit Ihrem Produkt haben (einseitiger Test). Ich weiß nichts über Sie, aber 36% sind ein schrecklich großer Teil Ihrer Benutzer, der frustriert, und natürlich könnte es leicht viel mehr sein. Es ist eindeutig ein ernstes Usability-Problem. Was Krug anscheinend nicht erkennt, ist, dass wenn Sie ein Problem haben, das "alle zum Sturz bringt", die Ergebnisse einer Stichprobe von ungefähr 3 Personen statistisch signifikant sind für eine pragmatische Null Hypothese.

Oder nehmen Sie die Faustregel für Usability-Tests, um ungefähr 5 Benutzer pro Usability-Test zu haben. Wenn ein Problem 30% oder mehr Ihrer Benutzer betrifft, besteht eine Wahrscheinlichkeit von über 0,83, dass Sie einen oder mehrere Benutzer mit einer Stichprobengröße von 5 beobachten. Wenn ein Problem jedoch 2% oder weniger Ihrer Benutzer betrifft, sind Sie es haben eine Wahrscheinlichkeit von weniger als 0,096, es bei 1 oder mehr Benutzern zu beobachten. Wenn Sie also 5 Benutzer testen und sich um alles kümmern, was bei einem oder mehreren Benutzern zu sehen ist, haben Sie eine hervorragende Chance, die häufigsten Probleme zu erkennen, und eine geringe Chance, Zeit mit Problemen zu verschwenden, die eine winzige Minderheit betreffen.

Bisher die statistische Signifikanz nicht zu ignorieren, Schlussfolgerungen aus Usability-Tests an 3, 4 oder 5 Benutzern zu ziehen, stimmt tatsächlich perfekt mit den Wahrscheinlichkeitsgesetzen überein. Deshalb hat es empirisch so gut funktioniert. Darüber hinaus bezieht sich die statistische Signifikanz nur auf quantitative Ergebnisse. Usability-Tests enthalten in der Regel auch qualitative Ergebnisse, die Ihr Vertrauen in die Schlussfolgerungen stärken können. Sie finden nicht nur heraus, wie viele ein Problem haben, sondern durch Ihre Beobachtungen und Nachbesprechungsfragen, warum. Wenn der offensichtliche Grund dafür wahrscheinlich für viele Ihrer Benutzer relevant ist, sollten Sie mehr Vertrauen in Ihre Ergebnisse haben.

Das Testen mit so kleinen Stichprobengrößen ist jedoch mit einer Einschränkung verbunden, die auf das Problem der Stärke des Effekts zurückkommt: Usability-Tests mit kleinen Stichproben eignen sich nur zum Auffinden großer offensichtlicher Probleme - solche, die einen großen Teil der Benutzer betreffen. Manchmal müssen Sie sich jedoch Sorgen über Probleme machen, die einen kleinen Anteil betreffen. Um das Extremfall zu nehmen: Wenn das Problem nur bei 2% Ihrer Benutzer auftritt, diese jedoch 2% tötet, möchten Sie dies offensichtlich wissen, und eine Stichprobengröße von 5 wird es offensichtlich nicht beheben.

Wenn Sie die Ergebnisse zweier Designs oder Probleme vergleichen, können Sie nicht sicher sagen, dass eines mit einer kleinen Stichprobengröße besser ist als das andere, es sei denn, eines bläst das andere vollständig aus dem Wasser. Wenn Sie bei einem Signifikanzniveau von 0,05 wissen müssen, welches Problem größer ist oder welches Design besser funktioniert, sind größere Stichproben erforderlich. Nehmen Sie als schnelle und schmutzige (und konservative) Schätzung der benötigten Stichprobengröße die gewünschte Genauigkeit, invertieren Sie sie und quadrieren Sie sie. Wenn Sie beispielsweise wissen möchten, wie viel Prozent der Benutzer eine Aufgabe innerhalb von 5% erledigen können, benötigen Sie bis zu (1/0,05) ^ 2 = 400 Benutzer!

Auf der anderen Seite, wer sagt, dass Sie eine Signifikanz auf der Ebene von 0,05 benötigen? Welche Konsequenzen ergeben sich für das Unternehmen aus der Auswahl eines zu erstellenden Entwurfs oder eines zu lösenden Problems gegenüber dem anderen? Würden wir uns in vielen Situationen nicht mit einer Wahrscheinlichkeit von 0,10 zufrieden geben, falsche Ergebnisse zu erzielen? Oder sogar 0,20? Die Kosten für fehlt ein gutes Design oder ein Problem mit höchster Priorität können viel mehr sein als die fehlerhafte Verfolgung von etwas, wenn es keinen Unterschied macht. Je größer der tatsächliche Größenunterschied für eine bestimmte Stichprobengröße ist, desto geringer ist die Wahrscheinlichkeit, dass Sie sich irren. Wenn Sie also sind falsch sind, wählen Sie eine Sache mit einem Signifikanzniveau von 0,20 über die andere , es ist unwahrscheinlich, dass Sie schrecklich falsch sind - es ist unwahrscheinlich, dass Sie mit der anderen Option viel besser dran waren.

Nehmen Sie einen weiteren Extremfall: Sie testen zwei Symbole für etwas an drei Benutzern. Zwei Benutzer kommen mit Symbol A gut zurecht, während nur einer mit Symbol B gut zurechtkommt. Für eine Nullhypothese der gleichen Leistung der Symbole beträgt das zweiseitige Signifikanzniveau 1,0 - es kann nicht unbedeutender werden. Aber welches Symbol wählst du? Die Verwendung eines Symbols kostet nicht mehr als das andere, und Sie haben, um eines auszuwählen. Natürlich wählen Sie Symbol A. Natürlich sollten Sie wenig Vertrauen in Ihre Wahl haben. Offensichtlich ist es ziemlich plausibel, dass die Symbole in der realen Welt gleich gut funktionieren. Es besteht sogar eine vernünftige Wahrscheinlichkeit, dass B tatsächlich besser als A ist. Wenn jedoch keine anderen Daten vorliegen, ist Symbol A offensichtlich die beste Wahl. In Gegenwart anderer Daten ist das Signifikanzniveau tut wichtig - Sie möchten wissen, wie viel Vertrauen Sie in jede Information setzen können, die Sie haben. Der Punkt ist jedoch, dass Sie nicht immer zu 95% sicher sein müssen, dass die Informationen eine Überlegung wert sind.

Für eine differenziertere Analyse siehe Lewis, J. R. (2006). Stichprobengrößen für Usability-Tests: Meistens Mathematik, keine Magie. Interactions, 13 (6), S. 29-33.

20

Die statistische Signifikanz spielt keine Rolle , da Usability-Tests nur Eingaben für Ihren Entwurfsprozess liefern. sie fahren es nicht.

Wenn beispielsweise drei von drei Personen angaben, die Suchergebnisse sortieren zu wollen, bedeutet dies nicht unbedingt, dass Sie Sortierfunktionen hinzufügen sollten. Es bedeutet, dass Sie überlegen sollten, warum die Leute dies gesagt haben und welches Bedürfnis dahinter steckt. Vielleicht entwerfen Sie am Ende eine Sorte. Vielleicht ein Filter. Vielleicht etwas anderes.

Siehe A List Apart's Der Mythos der Usability-Tests :

tests allein sind zwar kein guter Indikator dafür, wo die Prioritäten eines Teams liegen sollten, sie sind jedoch mit Sicherheit Teil des Triangulationsprozesses. Im Zusammenhang mit anderen Daten wie Projektzielen, Benutzerzielen, Benutzerfeedback und Nutzungsmetriken hilft das Testen dabei, ein vollständiges Bild zu erstellen. Ohne diesen Kontext können Tests jedoch im besten Fall irreführend oder missverstanden und im schlimmsten Fall geradezu schädlich sein.

In Warum es falsch ist, zuerst Benutzerbeobachtungen durchzuführen beobachtete Don Norman scharf:

Usability-Tests sind wie Beta-Tests von Software. Es sollte niemals verwendet werden, um zu bestimmen, "was Benutzer benötigen". Es ist zum Fangen von Fehlern.

Es gibt auch ein interessantes Papier von Constantine & Lockwood: Jenseits von benutzerzentriertem Design und Benutzererfahrung: Entwerfen für Benutzerleistung .

7
Bennett McElwee

Ich würde Michaels Vorsicht wiederholen, dass Repräsentativität wichtiger ist als Stichprobengröße.

In Bezug auf die statistische Signifikanz und die Art der von Krug und Nielsen beschriebenen Rabatttests. Ich denke, Krug und andere geben die Antwort, dass statistische Signifikanz nicht relevant ist, weil es ein komplexes Thema sein kann und es immer Leute gibt, die bereit sind, sich auf Ihre Statistiken zu stürzen und Ihnen (oft fälschlicherweise) sagen, dass Sie falsch liegen - was ist unglücklich. Sie können diese ganze Konversation vermeiden, indem Sie einfach sagen, dass Sie keine Statistiken verwenden (was unglücklich, aber häufig ist).

Zufällig können Sie Statistiken mit jeder Stichprobengröße (sogar 3) verwenden. Im Rahmen eines typischen kostengünstigen Usability-Tests zum Suchen und Beheben können Sie weiterhin Statistiken verwenden, um zu verstehen, wie häufig die Probleme sind und wie viele Probleme Sie wahrscheinlich sehen.

Wie Michael angedeutet hat, gibt es in einem Bereich Konfidenzintervalle. Wenn Sie feststellen, dass 3 von 3 Personen dasselbe Problem haben, können Sie mithilfe eines binomialen Konfidenzintervalls abschätzen, wie viele Benutzer auf das Problem stoßen würden (ein Taschenrechner befindet sich hier http: //www.measuringusability). com/wald.htm ).

Durch Eingabe von 3 bestanden und 3 insgesamt erhalten wir ein 95% -Konfidenzintervall zwischen 47% und 100%. Wir können mit 95% iger Sicherheit sagen, dass mindestens 47% unserer Benutzer dieses Problem haben würden (eine nicht triviale Menge). Wir haben einen statistischen Anspruch mit nur 3 Benutzern erhoben.

Die nächste Frage wäre bei einer Stichprobengröße von 3 Benutzern, wie viele Probleme wir wahrscheinlich gesehen haben. Erstens gilt dies nur für die Aufgaben, Teile der Benutzeroberfläche und den Typ der Benutzer, die Sie testen, ändern Sie diese und Sie müssen neu berechnen.

Die statistische Berechnung basiert wiederum auf dem Binomial. Wenn Sie oder jemand anderes nach dem Testen von 3 Benutzern wissen möchten, wie viele Probleme Sie gefunden haben oder nicht, verwenden Sie diese Strategie.

Wenn Sie beispielsweise das Ziel haben, Probleme zu finden, die mindestens 30% aller Benutzer betreffen, müssen Sie 8 Benutzer testen, um eine Wahrscheinlichkeit von 95% zu haben, dass Probleme auftreten, die so häufig im Usability-Test auftreten . HINWEIS: Dies bedeutet NICHT, dass Sie 95% aller Probleme gefunden haben (wie oft gesagt wird). Sie haben nur 95% aller Probleme gefunden, die 40% aller Benutzer betreffen. Mit anderen Worten, bei kleinen Stichprobengrößen werden Sie nur die offensichtlicheren Probleme sehen. Verwenden Sie diesen Rechner http://www.measuringusability.com/problem_discovery.php

Aber nach Krugs Ansicht gibt es normalerweise so viele "offensichtliche" Probleme, die behoben werden müssen, dass Sie sich nicht zu viele Gedanken über Probleme machen müssen, die beispielsweise nur 1 von 10 Benutzern betreffen.

Ein Artikel mit einer Simulation und einem Link zu Taschenrechnern ist hier verfügbar http://www.measuringusability.com/five-users.php

3
Jeff Sauro

Denk darüber so. Nehmen wir an, Sie machen einen Ausflug in ein fernes Land. Sie steigen aus dem Boot und jeder hatte 12 Finger. Sie wissen nicht, ob dies eine Anomalie ist oder ob jeder im ganzen Land so ist. Oh, Sie verkaufen in diesem Szenario Handschuhe. :) :)

Es spielt keine Rolle, ob Sie statistisches Vertrauen hatten oder nicht. Sie haben eine riesige rote Fahne gesehen, sobald Sie aus dem Boot gestiegen sind. Dies ist eindeutig etwas, das Sie erforschen und herausfinden müssen, was los ist. Wenn Sie Gitarren verkauft haben, ist Ihnen das vielleicht weniger wichtig. Einfache (nicht vertrauenswürdige) Usability-Studien helfen Ihnen dabei, große rote Fahnen zu identifizieren. Das ist normalerweise alles, was Sie brauchen, um das System besser zu machen.

2
Glen Lipka

Oooh, ich kann sehen, dass dieser umstritten wird. Mein 2p:

Wenn Sie ein Experiment mit einer anständigen Anzahl von Teilnehmern durchführen und eine statistische Analyse durchführen möchten, ist die statistische Signifikanz von größter Bedeutung für die Festlegung Ihrer Ergebnisse (dh was wahrscheinlich zufällig ist und was wahrscheinlich auf die Interaktion zwischen Ihren Teilnehmern zurückzuführen ist experimentelle Faktoren).

Wenn Sie Interaktionsforschung an einer kleinen Anzahl von Teilnehmern durchführen, würde ich argumentieren, dass die Art der empirischen Analyse, über die Sie sprechen, aufgrund der geringen Stichprobengröße nicht angemessen ist.

IMHO-Bedeutung ist bei der Durchführung statistischer Analysen immer relevant und wichtig. Die Frage ist dann, wann es angebracht ist, statistische Analysen durchzuführen. Meine Antwort wäre, wenn Sie genug Teilnehmer haben. Wenn nicht, führen Sie die Analysen nicht durch und ignorieren Sie nur die Signifikanz, da die Ausgabe sinnlos oder von geringem Wert/Gültigkeit ist.

N.

2
Nick Fine