it-swarm.com.de

Wie testet man A / B einen Ranking-Algorithmus?

Lassen Sie mich eine hypothetische Situation zum Testen eines Ranking-Algorithmus durch A/B angeben. Angenommen, ich bin für den Beliebtheits-Ranking-Algorithmus auf Youtube verantwortlich. Ich muss die interessantesten Videos ganz oben auf die Liste setzen. Ich habe zwei Algorithmen. Vielleicht sind sie:

  • PopularitätA = 10 * Aufrufe + 5 * Kommentare - 2 * SekundenOld
  • PopularitätB = 8 * Favoriten + 2 * Likes + 4 * Aufrufe

Die Hälfte der Nutzer auf Youtube wird PopularityA und die andere Hälfte PopularityB verwenden. Wie werde ich den Glückswert jeder Testgruppe quantitativ messen, um herauszufinden, welcher Algorithmus besser ist?

9
JoJo

Ich denke, das Problem ist, dass Sie Ihre Erfolgskriterien definieren müssen. Sie sagen, dass Sie die "interessantesten" Ergebnisse ganz oben auf der Liste erzielen möchten. Wie definieren Sie das? Vielleicht sollten Sie sich ansehen, wie viele Personen auf wie viele der Top-10-Ergebnisse klicken, wenn "Klicken auf ein Video" eine ausreichend gute Definition von "interessant" ist. Wenn Ihre Definition lautet, dass sie das Video genug genießen, um es zu kommentieren, zählen Sie die Anzahl der Kommentare von Videos, auf die in der Liste verwiesen wird.

Ich denke, sobald Sie klar identifiziert haben, wofür Ihr Ranking-Algorithmus tatsächlich rangiert, haben Sie Ihre Vergleichsmethode. Das Problem ist, dass Ihre Definition immer noch zu wollig ist.

9

Sie müssen definieren, was Glück ist. Ist es die Tatsache, dass die Person das gesuchte Video gefunden hat oder mit den Ergebnissen der Suchanfrage zufrieden war? Was wäre der Fall, Ihre Entschlossenheit für "Glück" würde auf der Ebene der Suchergebnisse und nicht auf der Videoseite liegen, da der Faktor "Glück" dort davon beeinflusst würde, wie sehr er das Video mochte/nicht mochte.

Ein Ansatz, den Sie wählen können, ähnelt dem, den Amazon mit seinem Überprüfungssystem macht:

enter image description here

wo Sie Benutzer fragen, ob sie gefunden haben, wonach sie gesucht haben. Natürlich können Sie noch einen Schritt weiter gehen und sie bitten, anonyme Kommentare darüber abzugeben, wie ihnen die Suchergebnisse gefallen haben.

Ein anderer Ansatz wäre die Darstellung eines Bewertungssystems in der Nähe der Suchergebnisseite, mit dem Benutzer die Qualität der Suche bewerten können.

Während diese Ihnen möglicherweise einige Eingaben zur Qualität der Suche liefern, hängen sie stark davon ab, ob der Benutzer die Feedback-/Bewertungsoption bemerkt. Sie können also auch sehen, wie viele Personen tatsächlich eines der Videos auf der Suchseite auswählen und zur Videoseite wechseln, anstatt eine andere Suchabfrage einzugeben. Eine andere Möglichkeit, dies zu untersuchen, besteht darin, den Erfolg Ihrer Suchergebnisse zu sehen, indem Sie jedem Video eine Gewichtung hinzufügen (z. B. wäre das oberste Video am gewichtetesten, das zweite Video am zweithöchsten gewichtet usw.).

Wenn Sie wirklich einen Drilldown durchführen möchten, können Sie messen, wie viel Zeit der Benutzer mit dem Ansehen des Videos verbracht hat, bevor Sie zu den Suchergebnissen zurückkehren, um eine andere Option zu testen, um den Grad der Zufriedenheit zu ermitteln.


Nun, ich weiß, dass vieles davon theoretisch ist und es gibt viele Aber und wenn ja, aber hey, Sie haben nach der Lösung einer theoretischen Frage gefragt :)

2
Mervin

Es hängt alles von Ihren Zielen und der Art der Liste ab, die Sie erstellen.

Einige Listen, wie z. B. beliebt und aktuell, sind für alle Benutzer im jeweiligen Zeitraum konstant. Benutzer interessieren sich dort nicht für Ihren Algorithmus, da solche Listen als Fakten wahrgenommen werden: eine Liste der neuesten Inhalte oder die Liste der Inhalte mit den meisten Ansichten/Kommentaren/Likes/Kombinationen/usw. in einem bestimmten Zeitraum. In solchen Listen liegt es ganz bei Ihnen, zu entscheiden, welche Faktoren für den Rang wichtiger sind: Geben Sie den Reaktionen, die Sie präsentieren möchten (d. H. Ansichten, Kommentare, Likes, Freigaben usw.), mehr/weniger Gewicht.

Wenn Sie mit Listen arbeiten, die von Benutzerinformationen abhängen, z. B. Suchergebnisse für eine Abfrage oder Empfehlungen, die auf der historischen Verwendung/dem Profil/den Verbindungen/usw. basieren, ist das Ranking weitaus wichtiger. Es gibt jedoch viele Möglichkeiten, den Erfolg zu messen. Es kann die Anzahl der Personen sein, die:

  • sehen Sie nur 1 der ersten 5 präsentierten Artikel und sehen Sie sich den Rest nicht an.
  • probieren Sie alle 5 wichtigsten Elemente aus und ändern Sie die Abfrage nicht.
  • führen Sie auf der Inhaltsseite eine Aktion aus (Speichern, Bewerten, Upvoten, Kommentieren usw.).
  • besuchen Sie nicht die Inhaltsseite, sondern führen Sie eine Aktion auf der Seite mit der Liste aus.

Die Entscheidung, welche Maßnahme verwendet werden soll, liegt ganz bei Ihnen, da sie von Ihrem Conversion-Trichter und Ihren Geschäftszielen abhängt.

Ich würde jedoch davor warnen, sich nur auf selbst gemeldete Umfragen zu verlassen (z. B. die Frage "War dies für Sie hilfreich?"), Da diese stark von der Beliebtheit des Inhalts und/oder der Funktion abhängen. Schauen Sie sich diesen Screenshot an für die Top-Rezension von Kindle Fire bei Amazon :

enter image description here

In 4 Monaten seines Bestehens (Stand: 8. März 2012) haben 22.108 Millionen Menschen, die die Seite besucht haben, über ihre Qualität abgestimmt. Wenn das nicht auffällt, hier ist das Top-Rezension für Fight Club (das Buch)

enter image description here

In den 9,5 Jahren (Stand 8. März 2012) haben nur 398 Menschen von Hunderttausenden über seine Qualität abgestimmt. Das ist sehr niedrig.

1
dnbrv