Login

Informierte Produktentscheidungen treffen: Ein umfassender Leitfaden zur Analyse von Lacktür-Tests mit zwei Varianten

Identifizierung der richtigen statistischen Tests für die Analyse der Verhaltensmarktforschung auf der Grundlage der A/B-Test-Methodik‍

Einleitung‍

In der sich rasch entwickelnden Geschäftswelt geht Innovation über die bloße Entwicklung neuer Produkte hinaus. Bei echter Innovation geht es darum, Lösungen zu entwickeln, die nicht nur fesseln, sondern auch die Bedürfnisse der Verbraucher umfassend erfüllen. Hier wird die Kunst der Verbrauchervalidierung entscheidend, und zwar nicht nur für die Einführung bahnbrechender Produkte, sondern auch für die Verfeinerung der bereits auf dem Markt befindlichen.

Betreten Sie das Reich des Pretotyping. Das Pretotyping, das aus dem traditionellen A/B-Testing hervorgegangen ist, bei dem die Reaktionen zweier verschiedener Gruppen auf unterschiedliche Angebote verglichen werden, hat die Art und Weise revolutioniert, wie Unternehmen die Marktnachfrage vor der vollständigen Produktentwicklung validieren. Eine der strategischsten Techniken ist der Test mit bemalten Türen. Mit Hilfe von Tests mit bemalten Türen kann die Marktnachfrage nach verschiedenen Produkteigenschaften gemessen und verglichen werden, um auf dieser Grundlage eine Entscheidung für das eine oder das andere Produkt zu treffen. Mit dieser Methode lässt sich die Nachfrage nach einer (neuen) Marke, einem Merkmal oder einem Wertversprechen effektiv messen und die am besten geeignete Zielgruppe sowie die optimale Preisstrategie ermitteln.

Mit dieser Methode können Sie nahezu unbegrenzt Daten über das Verbraucherverhalten sammeln.

Aber wie macht man aus all diesen Daten einen Sinn?

In diesem umfassenden Leitfaden befassen wir uns mit den statistischen Tests, die den Pretotyping-Tests zugrunde liegen, und helfen Ihnen, sich in der komplizierten Welt der verhaltensbasierten Entscheidungsfindung zurechtzufinden. Bevor wir Sie Schritt für Schritt durch die Analyse von Tests mit lackierten Türen führen, stellen wir Ihnen kurz die Metriken und statistischen Tests vor, die für Tests mit lackierten Türen verwendet werden.

Schlüsselmetriken für Tests von lackierten Türen

Bei der Durchführung von Tests mit lackierten Türen ist die Wahl der richtigen Messgrößen für eine genaue Analyse entscheidend. Zunächst müssen Sie festlegen, ob Ihre primäre Messgröße quantitativ (numerisch) oder qualitativ (kategorisch) sein soll. Quantitative Variablen werden entweder als kontinuierlich klassifiziert, d. h. sie können jeden beliebigen Wert innerhalb eines Bereichs annehmen (z. B. Verweildauer auf der Seite (Sekunden)), oder als diskret, d. h. sie sind auf bestimmte numerische Werte, in der Regel ganze Zahlen, beschränkt (z. B. Seitenaufrufe pro Besuch). Qualitative Variablen hingegen werden als nominal, d. h. ohne inhärente Reihenfolge der Kategorien (z. B. Farbschema der Schaltfläche), oder ordinal, d. h. mit einer logischen Reihenfolge der Kategorien (z. B. Bewertung der Benutzerzufriedenheit (1-5)), kategorisiert.

Das Verständnis dieser Unterscheidungen ist von entscheidender Bedeutung, denn die Art der Variablen, die Sie messen, bestimmt den statistischen Test, den Sie anwenden sollten. Beispielsweise sind gängige Key Performance Indicators (KPIs) wie Click-Through-Rate, CTA-Klicks, Konversionsrate und E-Mail-Bestätigungen wesentlich für die Messung der Kaufabsicht. Jede dieser Kennzahlen kann eine Momentaufnahme des Nutzerengagements und der Effektivität der getesteten Elemente liefern und so strategische Entscheidungen in der Produktentwicklung und im Marketing unterstützen.

2-Gruppen-Vergleiche

Beim Vergleich zweier Gruppen (um zwei Varianten gegeneinander zu testen) ist die Auswahl des geeigneten statistischen Tests von entscheidender Bedeutung. Es gibt drei häufig verwendete Optionen: den Chi-Quadrat-Test, den Z-Test und den T-Test.

Der Chi-Quadrat-Test ist für die Verarbeitung kategorischer Daten und die Bewertung, ob es signifikante Assoziationen zwischen den Kategorien gibt, unerlässlich. Der Z-Test ist beim Vergleich von Proportionen anwendbar, um festzustellen, ob es Unterschiede bei den prozentualen Ergebnissen zwischen den beiden Gruppen gibt. Der T-Test schließlich dient zur Bewertung der statistischen Unterschiede zwischen den Mittelwerten zweier Datensätze und ist somit von unschätzbarem Wert für die Bewertung von Abweichungen bei kontinuierlichen Variablen.

Ein praktischer Ansatz

Um die praktische Anwendung der statistischen Tests zu veranschaulichen, betrachten wir ein fiktives Beispiel aus der Haushaltsgeräteindustrie, bei dem ein Test mit lackierten Türen für einen intelligenten Staubsauger durchgeführt wird. 

Wir werden Sie durch den gesamten 7-stufigen Prozess entlang des Beispiels führen.

Überblick über den bewährten 7-Schritte-Prozess für datengestützte Entscheidungen

Stellen Sie sich ein Szenario vor, in dem der aktuelle Preis für den intelligenten Staubsauger auf 150 Euro festgelegt wurde und das Team eine Preiserhöhung auf 180 Euro in Erwägung zieht.

Schritt 1: Stellen Sie Ihre Forschungsfrage

In erster Linie wollen wir wissen, ob die geplante Preiserhöhung die Marktnachfrage, also im Wesentlichen die Kaufabsicht der Verbraucher, beeinflussen wird.

Unsere Forschungsfrage könnte also wie folgt lauten:

Gibt es einen Unterschied in der Kaufabsicht für den intelligenten Staubsauger bei einem Preis von 150 Euro im Vergleich zu einem Preis von 180 Euro?

Schritt 2: Definition von Hypothesen und Festlegung von Proxies

Um ein Problem strukturiert zu analysieren, ist es wichtig, zunächst Hypothesen aufzustellen. In der Regel werden Sie eine Nullhypothese (H0) und eine Alternativhypothese (HA) aufstellen wollen. Die Nullhypothese ist die Standardannahme, dass es keinen Unterschied oder Effekt gibt, während die Alternativhypothese das Gegenteil besagt, nämlich dass es einen Unterschied oder Effekt in der Population gibt. Um diese Hypothesen zu testen, müssen wir einen Key Performance Indicator (KPI) bestimmen, der die Kaufabsicht darstellt. In unserem Fall kann die Anzahl der Klicks auf die Call-to-Action-Schaltfläche (CTA), z. B. "Jetzt bestellen", als zuverlässiger Indikator für die Kaufabsicht angesehen werden.

Daher formulieren wir die folgenden Hypothesen:

H0: Es gibt keinen signifikanten Zusammenhang zwischen der Preisänderung (150 Euro auf 180 Euro) und der Häufigkeit von CTA-Klicks.

HA: Die Preisänderung auf 180 Euro führt zu einem signifikanten Unterschied in der Häufigkeit der CTA-Klicks.

In der praktischen Anwendung wollen wir nicht nur verstehen, ob die Kaufabsicht unterschiedlich ist, sondern auch, ob die Kaufabsicht der Verbraucher mit der Einführung eines höheren Preises abnimmt. Um noch tiefer in die Daten einzudringen, können wir die durchschnittliche Anzahl der CTA-Klicks pro Tag auf einer der Landing Pages verwenden. Dies führt uns zu den folgenden Hypothesen: 

H0: Es gibt keinen signifikanten Unterschied in der durchschnittlichen Anzahl der CTA-Klicks zwischen dem aktuellen Preis (150 Euro) und dem vorgeschlagenen erhöhten Preis (180 Euro).

HA: Die Preiserhöhung auf 180 Euro wird zu einem Rückgang der durchschnittlichen Anzahl der CTA-Klicks für den intelligenten Staubsauger führen.

Obwohl die Gesamtzahl der Kaufabsichten (= CTA-Klicks) pro Landing Page ein angemessener Indikator für den Erfolg eines Produkts sein kann, kann es auch von Vorteil sein, das Verhältnis der Personen, die einen Kauf getätigt haben, im Vergleich zur Gesamtzahl der Besucher der Landing Page zu betrachten. In der Regel gibt dies einen genaueren Einblick in die Effektivität der Landing Page, und da beide Landing Pages bis auf den Preis gleich sind, ist auch die Überzeugungskraft der einzelnen Preispunkte bei der Umwandlung von Besuchern in Kunden höher. 

Daraus leiten wir die folgenden Hypothesen ab:

H0: Es gibt keinen signifikanten Unterschied in den Konversionsraten bei Klicks auf den CTA-Button zwischen dem aktuellen Preis (150 Euro) und dem vorgeschlagenen erhöhten Preis (180 Euro).

HA: Die Preiserhöhung auf 180 Euro führt zu einem Rückgang der Konversionsraten bei den Klicks auf den CTA-Button für den intelligenten Staubsauger.

Diese drei Hypothesen und ihre jeweiligen Proxies geben Ihnen zwar noch keinen ganzheitlichen Überblick über die tatsächliche Kaufabsicht Ihrer Kunden, sind aber wichtig. Wir haben diese drei Hypothesen absichtlich ausgewählt, um Sie durch verschiedene mögliche statistische Tests zu führen. In der Praxis können verschiedene Testkonfigurationen unterschiedliche Hypothesen erfordern. Wenn Sie mehr darüber erfahren möchten, wie Sie eine Hypothese für Ihre Pretotyping-Tests erstellen, sollten Sie den folgenden Artikel lesen.

So, da wären wir also. Wir sind bereit, den Test vorzubereiten. Fast.

Schritt 3: Berechnung des Stichprobenumfangs

Vor der Durchführung des Tests ist es wichtig, die minimale Effektgröße zu definieren, die Sie zwischen den beiden Landing-Page-Varianten feststellen wollen, sei es in Bezug auf den Unterschied in der Gesamtzahl der CTA-Klicks oder der Konversionsraten. Die Festlegung dieses Parameters ermöglicht es Ihnen, die erforderliche Stichprobengröße zu bestimmen, um statistische Signifikanz bei der Identifizierung der angegebenen Effektgröße zu erreichen.

Für diese spezielle Untersuchung haben wir berechnet, dass eine Stichprobengröße von insgesamt etwa 6.800 Personen, aufgeteilt auf die beiden Landing Pages, erforderlich ist, um bei einer geschätzten Konversionsrate von 7 % einen Mindestunterschied von 25 % bei den Konversionsraten festzustellen. Dies würde bedeuten, dass Sie in der Lage wären, signifikante Unterschiede zu erkennen, die +/-1,75 % von 7 % abweichen. Sie können sich gerne an uns wenden, um mehr über die Berechnung von Stichprobengrößen zu erfahren.

Zur Akquisition der Stichprobe nutzt Horizon in der Regel Meta- und Google-Anzeigen, die die Zielgruppe zu den verschiedenen Landing-Page-Varianten führen.

 

Schritt 4: Daten sammeln

Um effektiv Daten für Ihr Experiment zu sammeln, richten wir zunächst zwei identische Landing Pages ein, die sich nur in ihrer Preisstrategie unterscheiden. Auf diese Weise können wir direkt vergleichen, wie unterschiedliche Preispunkte das Besucherverhalten und die Konversionsraten beeinflussen.

Beispiel für zwei Landing-Page-Varianten für einen Painted-Door-Test, die sich nur in einer Variable unterscheiden, in diesem Fall: dem Preis

Bevor wir die Daten selbst anzapfen, ist es wichtig, dass Sie auf Ihre technische Einrichtung achten und sicherstellen, dass Sie die Daten korrekt erfassen. Es gibt nichts Schlimmeres, als einen Test einzurichten und später festzustellen, dass die Daten nicht korrekt erfasst wurden.

In diesem Artikel erfahren Sie mehr darüber, wie Sie einen Test für lackierte Türen richtig einrichten.

So können Sie häufige Fehler vermeiden und Ihren Testaufbau optimieren, unabhängig davon, ob Sie die Horizon-Software oder eine benutzerdefinierte Konfiguration verwenden.

In diesem Szenario nehmen wir an, dass Sie im Laufe von zwei Wochen, in denen Sie einen A/B-Test mit zwei Landing Pages durchgeführt haben, die folgenden Daten gesammelt haben:

Vergrößert man die Daten über den Zeitraum von 14 Tagen, sieht die Tabelle wie folgt aus:

Die Daten scheinen korrekt zu sein und führen uns direkt zum nächsten Schritt, wo die eigentliche Magie passiert.

Schritt 5: Durchführung der statistischen Tests

Wahrscheinlich haben Sie in der Schule oder an der Universität gelernt, dass es vor der Durchführung eines statistischen Tests wichtig ist, das Signifikanzniveau zu bestimmen.

Bei der statistischen Hypothesenprüfung ist das Signifikanzniveau (α) der Schwellenwert, bei dem entschieden wird, ob die Nullhypothese abgelehnt werden soll. Eine gängige Wahl ist 0,05, was bedeutet, dass Sie bereit sind, eine 5 %ige Wahrscheinlichkeit eines Fehlers vom Typ I zu akzeptieren, d. h. eine wahre Nullhypothese abzulehnen. Mit Hilfe dieses Niveaus wird der kritische Wert oder der kritische Bereich für den Test festgelegt.

Hypothese 1

Werfen wir einen Blick zurück auf unsere Hypothesen. Die erste Hypothese lautete wie folgt:

H0: Es gibt keinen signifikanten Zusammenhang zwischen der Preisänderung (150 Euro auf 180 Euro) und der Häufigkeit von CTA-Klicks.

HA: Die Preisänderung auf 180 Euro führt zu einem signifikanten Unterschied in der Häufigkeit der CTA-Klicks.

Wir haben es uns in diesem Fall ziemlich einfach gemacht. Wir geben ein Signalwort ein: Frequenz.

Mit anderen Worten oder in einer allgemeineren wissenschaftlichen Sprache lassen sich unsere Hypothesen wie folgt umformulieren:

H0: Die Verteilung der beobachteten Häufigkeiten ist gleich der Verteilung der erwarteten Häufigkeiten bei Unabhängigkeit.

HA: Die Verteilung der beobachteten Häufigkeiten ist nicht gleich der Verteilung der erwarteten Häufigkeiten bei Unabhängigkeit.

Chi-Quadrat-Test

Wenn es um Häufigkeiten oder kategoriale Daten geht, ist der Chi-Quadrat-Test der Unabhängigkeit unser Test der Wahl. Diese statistische Methode ist besonders nützlich, um kategoriale Daten zu analysieren und festzustellen, ob die Verteilung einer kategorialen Variable unabhängig von einer anderen ist. 

Durch die Erstellung einer Kontingenztabelle können wir die beobachteten und erwarteten Häufigkeiten im Zusammenhang mit der Preisänderung (Landing Page A (150 €) oder Landing Page B (180 €)) und den CTA-Klickergebnissen (Ja oder Nein) vergleichen. Durch die Analyse dieser Beziehung können wir feststellen, ob die beobachtete Verteilung der CTA-Klicks mit dem übereinstimmt, was wir erwarten würden, wenn es keine Korrelation zwischen der Preisänderung und den CTA-Klickergebnissen gäbe.

Um dies weiter zu untersuchen, werden wir eine 2x2-Kontingenztabelle mit den Kategorien "Landing Page" (A (150€) oder B (180€)) und "CTA-Klick" (Ja oder Nein) aufstellen:

Um die Tabelle auszufüllen, können Sie die Anzahl der CTA-Klicks pro Landing Page aus den gegebenen Daten entnehmen. Um die Anzahl der "Keine CTA-Klicks" zu berechnen, nehmen Sie einfach die Gesamtzahl der Landingpage-Besucher und subtrahieren sie von der Anzahl der CTA-Klicks auf dieser Landingpage.

Als Nächstes verwenden wir die Chi-Quadrat-Testformel, um die Teststatistik zu berechnen.

Machen Sie sich keine Sorgen wegen der Mathematik im folgenden Teil. Sie können auch einfach Software wie SPSS, R, Stata oder jedes andere Statistikprogramm verwenden, mit dem Sie vertraut sind. Wenn Sie die Horizon-Software verwenden, können Sie sogar direkt in der Software die Ergebnisse Ihres Tests sehen, ohne dass Sie weitere Statistiksoftware verwenden müssen.

Wenn Ihnen das alles nicht zugänglich ist oder Sie Ihre Kollegen mit Ihrem Wissen beeindrucken wollen, können Sie gerne beim folgenden Teil bleiben. Andernfalls fahren Sie einfach mit der "Ergebnisinterpretation" dieses Tests fort.

Die Formel für die Chi-Quadrat-Statistik lautet:

Wo:

Oij ist die beobachtete Häufigkeit in jeder Zelle der Kontingenztabelle

Eij ist die erwartete Häufigkeit in jeder Zelle

Bevor Sie die Werte in die Formel eingeben können, müssen Sie die erwartete Häufigkeit für jede Zelle berechnen. Die Formel lautet wie folgt:

Wo:

Ri ist die Summe für Zeile i

Cj ist die Summe für Spalte j

N ist die Gesamtsumme aller Beobachtungen

Daraus ergeben sich die folgenden erwarteten Werte:

Für Landing Page A, CTA-Klick: E11=207.5

Für Landing Page A, kein CTA-Klick: E12=2792.5

Für Landing Page B, CTA Click: E21=207.5

Für Landing Page B, kein CTA-Klick: E22=2792.5

Berechnen wir χ2, indem wir die Werte aus der 2x2-Kontingenztabelle eintragen.

Da wir nun die Chi-Quadrat-Statistik haben, besteht der nächste Schritt darin, sie mit dem kritischen Wert aus der Chi-Quadrat-Verteilung mit geeigneten Freiheitsgraden zu vergleichen, um den p-Wert zu bestimmen und die statistische Signifikanz zu bewerten. Die Freiheitsgrade wären in diesem Fall(Zeilen-1)(Spalten-1)=1. Sie können eine Chi-Quadrat-Verteilungstabelle oder ein statistisches Softwarepaket verwenden, um den kritischen Wert zu ermitteln und den p-Wert zu bestimmen. Liegt der p-Wert unter dem von Ihnen gewählten Signifikanzniveau (in der Regel 0,05), würden Sie die Nullhypothese ablehnen.

Anhand einer Chi-Quadrat-Verteilungstabelle(unsere eigene finden Sie hier) oder einer Statistiksoftware können Sie feststellen, dass der kritische Wert bei einem Signifikanzniveau von 0,05 und einem Freiheitsgrad ungefähr 3,84 beträgt.

Nun vergleichen wir die berechnete Chi-Quadrat-Statistik mit dem kritischen Wert. Wir stellen fest, dass die berechnete Chi-Quadrat-Statistik (18,7) größer ist als der kritische Wert (3,84), was dazu führt, dass wir die Nullhypothese ablehnen. Dies bedeutet, dass ein signifikanter Zusammenhang zwischen der Landing Page und den CTA-Klicks auf dem Signifikanzniveau von 0,05 besteht.

Verpassen Sie mit unserem monatlichen Newsletter keine Experteneinblicke und Fallstudien über Erfolgsprognosen am Markt.

Hallo! 👋 Wem sollen wir das zustellen?
Interpretation der Ergebnisse

Die Ergebnisse des Chi-Quadrat-Tests deuten darauf hin, dass die Preisänderung von 150 € auf 180 € einen signifikanten Einfluss auf die Häufigkeit von CTA-Klicks hat. Der Chi-Quadrat-Test selbst sagt jedoch nichts über die Richtung des Zusammenhangs aus, d. h. ob es sich um eine Zunahme oder eine Abnahme handelt. Dazu müssten Sie sich die Beobachtungen noch einmal genauer ansehen oder einfach eine weitere Analyse durchführen.

Der Chi-Quadrat-Test auf Unabhängigkeit setzt bestimmte Bedingungen voraus, unter anderem, dass die Beobachtungen unabhängig sind und dass die erwartete Häufigkeit in jeder Zelle der Kontingenztabelle nicht zu klein ist. Wenn Ihre Daten gegen diese Annahmen verstoßen, müssen Sie möglicherweise alternative Tests oder Anpassungen in Betracht ziehen.

Hypothese 2

Wenden wir uns nun der zweiten Hypothese zu. Bis jetzt wissen wir nur, dass es einen signifikanten Unterschied zwischen der Anzahl der CTA-Klicks für die beiden Preise gibt; wir wissen nicht, in welche Richtung er geht. Daher wollten wir die folgende Hypothese untersuchen: 

H0: Es gibt keinen signifikanten Unterschied in der durchschnittlichen Anzahl der CTA-Klicks zwischen dem aktuellen Preis (150 Euro) und dem vorgeschlagenen erhöhten Preis (180 Euro).

HA: Die Preiserhöhung auf 180 Euro wird zu einem Rückgang der durchschnittlichen Anzahl der CTA-Klicks für den intelligenten Staubsauger führen.

Da wir die Tagesdurchschnitte genauer betrachten wollten, befassen wir uns nun nicht mehr mit den Gesamthäufigkeiten, sondern mit den Mittelwerten.

Verallgemeinern wir die Hypothese noch einmal:

H0: Der Populationsmittelwert der einen Gruppe ist gleich dem Populationsmittelwert der anderen Gruppe.

HA: Der Populationsmittelwert der einen Gruppe ist größer als der Populationsmittelwert der anderen Gruppe.

Wenn es um statistische Methoden zum Vergleich der Mittelwerte zweier unabhängiger Gruppen geht, ist der t-Test eine geeignete Wahl.

T-Test

Ein t-Test wird üblicherweise verwendet, um die Mittelwerte zweier Gruppen zu vergleichen und festzustellen, ob ein statistisch signifikanter Unterschied zwischen ihnen besteht. Er kann bidirektional, auch two-tailed genannt (testet, ob sich die Mittelwerte in beiden Richtungen signifikant unterscheiden), oder unidirektional, auch one-tailed genannt (testet, ob sich die Mittelwerte nur in einer Richtung signifikant unterscheiden); gepaart, d. h. Vergleich von Mittelwerten zweier verwandter Gruppen, oder ungepaart, d. h. Vergleich von Mittelwerten zweier unabhängiger Gruppen.

In unserem Test haben wir zwei unabhängige Gruppen, da jede Person nach dem Zufallsprinzip entweder für die Landing Page A (150€) oder die Landing Page B (180€) akquiriert wurde, niemals für beide. Außerdem ist unsere Hypothese unidirektional, da wir untersuchen, ob die durchschnittliche Anzahl der Kaufabsichten bei der 180€-Variante signifikant geringer ist.

Kommen wir zurück zu den mathematischen Grundlagen. Wie beschrieben, empfehlen wir die Verwendung von Software wie SPSS oder R, um die Statistiken zu berechnen, oder werfen Sie einfach einen Blick auf das Horizon-Software-Dashboard, um Einblicke in Echtzeit zu erhalten.

Die Formel für den t-Test lautet wie folgt:

wobei

Füllen wir unsere Zahlen aus. Zunächst müssen wir für jede Landing Page den Mittelwert der täglichen Besucher über einen Zeitraum von 14 Tagen berechnen. Ich bin sicher, dass jeder, der diesen Text liest, bereits den Durchschnitt seiner Schulnoten berechnet hat. Das sollte also kein großes Problem sein. Wenn wir uns die Ergebnistabelle ansehen, können wir alle CTA-Klicks pro Tag und Landing Page zusammenzählen und durch die Anzahl der Tage dividieren. Mathematisch lässt sich das wie folgt ausdrücken:

Füllen wir unsere Zahlen aus. Zunächst müssen wir für jede Landing Page den Mittelwert der täglichen Besucher über einen Zeitraum von 14 Tagen berechnen. Ich bin sicher, dass jeder, der diesen Text liest, bereits den Durchschnitt seiner Schulnoten berechnet hat. Das sollte also kein großes Problem sein. Wenn wir uns die Ergebnistabelle ansehen, können wir alle CTA-Klicks pro Tag und Landing Page zusammenzählen und durch die Anzahl der Tage dividieren. Mathematisch lässt sich das wie folgt ausdrücken:

Wenn wir die beobachteten Zahlen ausfüllen, errechnen wir für die täglichen durchschnittlichen CTA-Klicks pro Landingpage-Variante Folgendes:

Der nächste Schritt ist die Berechnung der Stichprobenvarianzen mit der folgenden Formel:

Wenn wir die beobachteten Zahlen einsetzen, berechnen wir die folgenden Varianzen:

Jetzt haben wir alle Werte, um unsere t-Test-Formel auszufüllen:

Um festzustellen, ob diese t-Statistik statistisch signifikant ist, vergleichen wir sie mit einem kritischen Wert aus der t-Verteilung, wobei wir unser gewähltes Signifikanzniveau von 5 % und unsere Freiheitsgrade berücksichtigen.

Der entsprechende p-Wert für unsere t-Statistik wurde mit 3,31 x 10-9 berechnet. (Normalerweise wird diese Berechnung mit einer Statistiksoftware durchgeführt, da sie eine komplexe Integration erfordert, die praktisch nicht von Hand durchgeführt werden kann).

Die Freiheitsgrade (df) für den t-Test beim Vergleich zweier Stichproben mit potenziell ungleichen Varianzen (gemäß der Welch-Satterthwaite-Gleichung) werden wie folgt berechnet:

wobei

s1 und s2 sind die Stichprobenvarianzen der beiden unabhängigen Gruppen

n1 und n2 sind die Anzahl der Beobachtungen in jeder Stichprobe

Wenn wir die Werte ausfüllen, erhalten wir:

Mithilfe einer Student's t-Tabelle(unsere eigene Tabelle finden Sie hier) oder einer Statistiksoftware können wir die Signifikanz unserer Ergebnisse bestimmen. Da unsere t-Statistik positiv und groß ist und der p-Wert signifikant klein ist, haben wir einen starken Beweis gegen die Nullhypothese. Dies bedeutet, dass es einen statistisch signifikanten Unterschied in der durchschnittlichen Anzahl der Käufe oder Kaufabsichten zwischen den beiden Preispunkten gibt.

Verpassen Sie mit unserem monatlichen Newsletter keine Experteneinblicke und Fallstudien über Erfolgsprognosen am Markt.

Hallo! 👋 Wem sollen wir das zustellen?
Interpretation der Ergebnisse

Da unsere Alternativhypothese (HA) einen Rückgang der Käufe mit der Preiserhöhung angibt und unsere Testergebnisse statistisch signifikant sind, würden wir zu Gunsten der Alternativhypothese schließen. Das bedeutet, dass die Daten die Behauptung stützen, dass eine Preiserhöhung auf 180 Euro zu einem Rückgang der durchschnittlichen Anzahl von Käufen oder Kaufabsichten für den intelligenten Staubsauger führt.

Boxplot, der zeigt, dass sich die Konfidenzintervalle zwischen den beiden Varianten nicht überschneiden - ein Beweis für einen signifikanten Unterschied

Wir sind nicht nur in der Lage, den Unterschied zwischen den beiden Gruppen zu messen, sondern auch die Größe und Richtung dieses Unterschieds. Die t-Statistik ist ein Maß für die Differenz zwischen den beiden Gruppenmittelwerten im Verhältnis zur Variabilität ihrer Werte. Ein hoher Wert der t-Statistik (weit von Null entfernt) weist auf einen großen Unterschied zwischen den Gruppen hin. In unserem Fall ist der Wert von 8,929 relativ groß und weist auf einen signifikanten Unterschied zwischen den Mittelwerten der beiden Landing Pages hin. Das Vorzeichen der t-Statistik gibt die Richtung dieses Unterschieds an. In diesem Fall deutet das positive Vorzeichen darauf hin, dass der Mittelwert von Landing Page A höher ist als der von Landing Page B.

Der t-Test kann in den meisten Fällen für A/B-Tests verwendet werden, wobei jedoch bestimmte Annahmen erfüllt sein müssen. Zu diesen Annahmen gehören Zufallsstichproben, unabhängige Beobachtungen, eine Normalverteilung der Grundgesamtheit jeder Gruppe und gleiche Varianzen der Grundgesamtheiten. Wenn Ihre Daten gegen diese Annahmen verstoßen, müssen Sie möglicherweise alternative Tests oder Anpassungen in Betracht ziehen.

‍Hypothese3‍

Bis jetzt haben wir nur die absolute Anzahl der CTA-Klicks betrachtet. In vielen Szenarien, z. B. bei sehr unterschiedlichen Zahlen von einzelnen Seitenbesuchern, möchte man vielleicht die Konversionsraten der beiden Varianten miteinander vergleichen. Aus diesem Grund haben wir unsere dritte Hypothese wie folgt abgeleitet:

H0: Es gibt keinen signifikanten Unterschied in den Umrechnungskursen zwischen dem aktuellen Preis (150 Euro) und dem vorgeschlagenen erhöhten Preis (180 Euro).

HA: Die Preiserhöhung auf 180 Euro wird zu einem Rückgang der Umrechnungskurse für den intelligenten Staubsauger führen.

Um diese Hypothese zu überprüfen, wenden wir den z-Test für zwei Stichproben an, eine statistische Methode, die sich ideal für den Vergleich von Anteilen aus zwei verschiedenen Stichproben eignet. Bevor wir uns mit den Einzelheiten befassen, sollten wir das Grundprinzip dieses Tests verstehen.

Z-Test

Der z-Test ist eine zuverlässige Methode zur Analyse von binären Ergebnissen zwischen zwei Gruppen. Er ist genau, auf proportionale Vergleiche zugeschnitten und für Szenarien mit bekannter Bevölkerungsvarianz und ausreichendem Stichprobenumfang geeignet. Im Gegensatz zum Chi-Quadrat-Test, der Assoziationen in kategorialen Variablen untersucht, aber nicht auf Verhältnisvergleiche zugeschnitten ist, und zum t-Test, der für Mittelwerte in kontinuierlichen Daten entwickelt wurde, ist der z-Test speziell auf die nuancierten Anforderungen von Verhältnisvergleichen zugeschnitten.

Fangen wir mit der Mathematik an. Wie vorgeschlagen, können Sie Software wie SPSS oder R verwenden, um die Statistiken zu berechnen, oder einfach das Horizon-Software-Dashboard aufrufen, um Einblicke in Echtzeit zu erhalten.

Die Formel für den z-Test lautet wie folgt:

Wo

pA und pBsind die Stichprobenanteile der beiden Gruppen (= Umwandlungssätze)

nAund nB sind die Stichprobengrößen der beiden Gruppen 

p ist der Anteil der zusammengefassten Stichprobe

Bevor wir alle Werte in die Formel einsetzen können, müssen wir den Anteil der zusammengefassten Stichprobe berechnen.

Setzen wir nun die Werte in die z-Test-Formel ein:

Der berechnete z-Score für den Vergleich der Konversionsraten zwischen Landing Page A (150€) und Landing Page B (180€) beträgt ungefähr 4,32. Bei Hypothesentests vergleichen wir diesen z-Score mit kritischen Werten aus der Standardnormalverteilung. Angesichts unserer unidirektionalen Hypothese, dass die Konversionsrate von Landing Page A höher ist als die von Landing Page B, sind wir an dem z-Score interessiert, der einem einseitigen Test auf einem gewählten Signifikanzniveau (in der Regel 0,05) entspricht.

Vergleicht man ihn mit dem kritischen Wert in der Tabelle, so stellt man fest, dass unser z-Score deutlich größer ist. Dies deutet darauf hin, dass der beobachtete Unterschied bei den Konversionsraten zwischen den beiden Landing Pages auf dem Signifikanzniveau von 0,05 statistisch signifikant ist.

Interpretation der Ergebnisse

Auf der Grundlage unserer statistischen Analyse haben wir festgestellt, dass es genügend Beweise gibt, um die Nullhypothese zu verwerfen. Das bedeutet, dass der Preisunterschied von 150€ zu 180€ einen signifikanten Einfluss auf die Konversionsraten für den intelligenten Staubsauger zu haben scheint. Die höhere Konversionsrate auf Landing Page A deutet darauf hin, dass die Kunden bei dem niedrigeren Preis eher bereit sind, auf die CTA einzugehen.

Der z-Test ist ein leistungsfähiges Instrument zur Analyse von binären Ergebnissen zwischen zwei Gruppen. Bei der Verwendung dieses Tests müssen jedoch bestimmte Annahmen beachtet werden. Zu diesen Annahmen gehören unabhängige Beobachtungen, große Stichprobengrößen und bekannte Populationsabweichungen. Wenn diese Annahmen nicht erfüllt sind, können alternative Tests oder Anpassungen erforderlich sein, um die Gültigkeit der Ergebnisse zu gewährleisten.

Schritt 6: Interpretation der Ergebnisse

Wir wollten herausfinden, ob die vorgeschlagene Preiserhöhung die Marktnachfrage beeinflussen würde. Auf der Grundlage unserer statistischen Analysen stellten wir fest, dass der höhere Preis von 180 € im Vergleich zum ursprünglichen Preis von 150 € zu einem deutlichen Rückgang des Verbraucherinteresses führte. Dies spiegelte sich in der Häufigkeit der Klicks und der durchschnittlichen Anzahl der Käufe sowie in den On-Page-Konversionsraten wider. 

Die höheren Raten für den niedrigeren Preispunkt deuten auf eine stärkere Reaktion der Verbraucher auf die günstigere Preisgestaltung hin, was die Schlussfolgerung untermauert, dass die Gesamtmarktnachfrage in diesem Zusammenhang empfindlich auf Preiserhöhungen reagiert.

Wir könnten also zu dem Schluss kommen, dass unser intelligenter Staubsauger dem Gesetz der Nachfrage folgt, das besagt, dass die nachgefragte Menge mit steigendem Preis eines bestimmten Gutes abnimmt, sofern alle anderen Faktoren gleich sind.

Illustration einer Nachfragekurve, die dem Gesetz der Nachfrage folgt

Das scheint logisch zu sein. Bei Tests mit Horizon beobachten wir jedoch auch eine Preiselastizität, die unserem menschlichen Verstand zuwiderläuft und eine höhere Nachfrage bei höheren Preisen anzeigt. So konnte Bosch dies bei einem seiner intelligenten Gartengeräte feststellen und den Preis mit Hilfe von Horizon von 179 € auf 199 € erhöhen.(Laden Sie die Fallstudie hier herunter)

Ein Beispiel dafür ist der Snob-Effekt bei Veblen-Gütern. Der Begriff bezieht sich auf die Tendenz von Personen, einzigartige oder exklusive Produkte oder Erfahrungen zu begehren, nur weil sie selten oder schwer zu bekommen sind. Diese Voreingenommenheit kann das Verbraucherverhalten beeinflussen, indem sie dazu führt, dass der Einzelne einem Produkt einen höheren Wert beimisst, nur weil es als exklusiv wahrgenommen wird, anstatt seinen Nutzen oder seine Qualität objektiv zu bewerten. Infolgedessen kann der Snob-Effekt zu irrationalen Entscheidungen führen.

Illustration einer Nachfragekurve für normale Güter gegenüber Veblen-Gütern

Dies führt uns zum letzten Aspekt des Tests. Wie wird die Entscheidung getroffen?

Schritt 7: Entscheidungsfindung

Nach der sorgfältigen Durchführung der statistischen Analyse haben wir eine Grundlage für die Entscheidungsfindung. Es wäre relativ einfach zu sagen, dass der Preis für den intelligenten Staubsauger aufgrund der sinkenden Nachfrage nicht erhöht werden sollte. Aber diese Entscheidung würde ohne Berücksichtigung des gesamten Business Case getroffen werden.

Der Einfachheit halber nehmen wir an, dass die beobachteten Konversionsraten auf dem CTA pro Preispunkt die Konversionsraten eines Kaufs sind. Wir haben durchschnittliche Konversionsraten auf dem CTA von 8,33% (Landing Page A (150€)) und 5,50% (Landing Page B (180€)) beobachtet. 

Wir gehen weiter davon aus, dass 10.000 Personen pro Preispunkt auf der Landing Page landen und den smarten Staubsauger zu den beobachteten Conversion Rates kaufen.

Dies würde zu den folgenden potenziellen Einnahmen führen:

Landing Page A (150€): Potenzieller Umsatz = 10.000 x 8,33% x 150€ = 124.950

Landing Page B (180€): Potenzieller Umsatz = 10.000 x 5,50% x 180€ = 99.000

In diesem extrem vereinfachten Geschäftsfall, in dem die Kosten für das Produkt unabhängig vom Preispunkt gleich bleiben, übersteigt der potenzielle Umsatz für die günstigere Variante den der teureren. Ein weiterer Indikator, der die Entscheidung für die Beibehaltung des Preises von 150 € begründet.

In der Realität ist der Entscheidungsprozess komplexer als dargestellt. Deshalb arbeiten wir an einem Leitfaden für die Entscheidungsfindung auf der Grundlage von Tests mit lackierten Türen. Bleiben Sie auf dem Laufenden, indem Sie unseren Newsletter abonnieren, damit Sie seine Veröffentlichung nicht verpassen.

Schlussfolgerung

Dieser umfassende Leitfaden befasst sich mit der komplizierten Anwendung statistischer Tests im Rahmen von Lacktürentests, die für fundierte Produktentscheidungen unerlässlich sind. Anhand einer Fallstudie über einen intelligenten Staubsauger haben wir verschiedene statistische Methoden untersucht, darunter den Chi-Quadrat-Test, den T-Test und den Z-Test, die jeweils auf die Messung verschiedener Aspekte des Verbraucherverhaltens und der Kaufabsicht zugeschnitten sind. 

Diese Analyse unterstreicht die Bedeutung der Auswahl geeigneter statistischer Tests auf der Grundlage der Art der Daten und der spezifischen Hypothesen, die untersucht werden. Sie verdeutlicht auch die Komplexität der Interpretation dieser Tests, bei der das Verständnis der Art der Daten und der Marktdynamik eine entscheidende Rolle spielt. Während unsere Ergebnisse die Entscheidung stützten, den Preis aufgrund der geringeren Nachfrage nicht zu erhöhen, deutete die Untersuchung der Preiselastizität bei ähnlichen Produkten darauf hin, dass höhere Preise in bestimmten Kontexten paradoxerweise die Nachfrage steigern könnten.

Der Einsatz der richtigen statistischen Instrumente und ein gründliches Verständnis der Marktpsychologie sind von entscheidender Bedeutung, um die Herausforderungen der Produktinnovation zu meistern.

Wir bei Horizon wissen, wie wichtig es ist, fundierte Entscheidungen zu treffen. Deshalb haben wir die Produkt- und Innovationsteams von Blue Chip in realen Marktumgebungen dabei unterstützt, wertvolle Einblicke in das Verbraucherverhalten zu gewinnen und die tatsächlichen Kaufabsichten der Verbraucher aufzudecken. Wenn Sie mehr über verhaltensbasierte Marktforschung erfahren möchten, melden Sie sich für unseren Newsletter an.

Verpassen Sie mit unserem monatlichen Newsletter keine Experteneinblicke und Fallstudien über Erfolgsprognosen am Markt.

Hallo! 👋 Wem sollen wir das zustellen?
Geschrieben von
Florian Haberler
Florian ist Research Manager bei Horizon und verfügt über einen umfangreichen Hintergrund in den Bereichen Beratung, Marketing und Werbung. In der Serviceabteilung von Horizon leitet er die strategische Marktanalyse und nutzt die B2B-SaaS-Plattform von Horizon, um Innovationen zu fördern und datengestützte Entscheidungen für den Markterfolg zu treffen. Mit seinem Fachwissen stellt Florian sicher, dass die Erkenntnisse über die Verbraucher sorgfältig analysiert werden, so dass die Kunden mit Zuversicht durch die vorgelagerten Märkte navigieren können.
LinkedIn Profil Link

Weitere Erkenntnisse von Horizon