it-swarm.com.de

Quantitative Methoden zur Analyse umfangreicher Intranet-IA

Ich wurde gebeten, Seiten in einem Abschnitt einer großen Regierungswebsite zu analysieren und besser zu gruppieren. Die Anzahl der Seiten beträgt Tausende.

Die Probleme, die ich habe, sind, dass die Metadatenregeln von den Mitarbeitern nicht befolgt wurden, so dass es sehr schwierig ist, einen Sinn für das zu finden, was vor sich geht. Ich habe keine Ahnung, ob die aktuelle Organisation optimal ist oder sich wiederholt, und ich wurde beauftragt, dies so schnell wie möglich herauszufinden.

Daher kann ich den Metadaten nicht vertrauen. Was könnte ich sonst noch analysieren? Seitentitel? Alle http://en.wikipedia.org/wiki/Data_mining , die Sie verwendet haben und die sich als besonders nützlich erwiesen haben.

Ich bin derzeit nicht an qualitativer Forschung interessiert.

BEARBEITEN Dieses Problem betrifft die Analyse einer Seite und die Beurteilung, ob die zugehörigen Metadaten (Seitentitel, Seitenbeschreibung) mit dem Inhalt übereinstimmen. Es muss dann ein Vergleich mit anderen Seiten im Verzeichnis durchgeführt werden, um sicherzustellen, dass: a) es am richtigen Ort ist und b) es nicht an anderer Stelle wiederholt wird. Wir ändern die Folgenabschätzung nicht, da sie von seltsamen unnachgiebigen Geschäftsregeln bestimmt wird.

Bearbeiten 2 Es gibt ungefähr 6000 Seiten, daher müssen Aufgaben quantitativ und automatisiert sein

6
colmcq

Erstens habe ich keine Erfahrung in diesem Bereich der Inhaltsanalyse auf einer so großen Website, aber ich habe einige Ideen, die helfen oder zumindest Anregungen geben können, wie Sie sie für Ihre spezielle Situation relevant machen können.

Überlegen Sie, ob eine qualitative Analyse auch helfen kann

Sie erwähnen spezifisch quantitative Methoden, aber da suchen Sie auch

  • richtigkeit der Metadaten in Bezug auf den Inhalt
  • die optimale (oder anderweitige) Natur der Struktur
  • das Ausmaß der Wiederholung oder Redundanz,

dann drängen Sie auch in qualitative Bereiche. Schließen Sie also nicht unbedingt aus, ob es qualitative Heuristiken gibt, die möglicherweise angewendet werden können, wenn auch auf eine grob automatisierte Weise.

Überlegen Sie, was passieren wird, wenn Sie fertig sind

Sehen Sie sich an, wie die resultierenden Daten tatsächlich verwendet werden, um Verbesserungen vorzunehmen. Es ist alles sehr gut, eine Reihe von Zahlen zurückzubekommen, aber das ist möglicherweise nicht wirklich hilfreich, um die nächsten Schritte zu unternehmen - nur um zu bestimmen, ob die nächsten Schritte erforderlich sind Nehmen Sie also nicht nur das Wie, sondern auch das Was, Wo, Wie und auch die Prioritäten.

Wenn beispielsweise 25% der Seiten schlechte Metadaten enthalten, diese jedoch in Bezug auf Besuche und Zeitaufwand pro Seite zu den 25% der am wenigsten nützlichen Seiten gehören, ist dies wohl weniger wichtig als 25% der schwersten gebrauchte Seiten mit schlechten Metadaten. (obwohl natürlich die schlechten Metadaten der Grund sein können , warum sie keine Aufmerksamkeit erhalten.

Betrachten Sie die Relevanz eines Bottom-up-Ansatzes

Sie könnten eine Bottom-up-Analyse des Quellinhalts der Site durchführen und versuchen, die Erstellung einer Zuordnung von der Quelle zu den Webseiten zu automatisieren - erneut, um Relevanz, Wiederholung und Redundanz zu bestimmen. Kombinieren Sie dies mit Seitenaufrufdaten darüber, wie viele Besuche oder wie viel Zeit auf diesen Seiten verbracht wird.

Es lohnt sich zu untersuchen , wie und von wem der Inhalt produziert wurde , und zu prüfen, ob es nach ersten Recherchen ein Muster geben könnte, bei dem die Wahrscheinlichkeit von schlechten Metadaten oder Wiederholungen besteht Inhalt kann entsprechen

  • eine bestimmte Person, die Inhalte vorbereitet oder einreicht
  • eine bestimmte Methode zum Vorbereiten oder Einreichen von Inhalten (einschließlich verschiedener Software)
  • ein Zeitraum, in dem Inhalte erstellt oder eingereicht wurden
  • andere Abhängigkeiten von den verwendeten Prozessen

Berücksichtigen Sie beim Data Mining die Verwendung des Inhalts sowie des Inhalts selbst

Eine Möglichkeit, festzustellen, ob die Organisation von Inhalten funktioniert, besteht darin, die Interaktion und Navigation des Benutzers mit dem Seiteninhalt zu untersuchen

Dies würde eine fortgeschrittene Verwendung von Google Analytics oder ähnlichem erfordern. Möglicherweise haben Sie bereits Analysen oder nicht (möglicherweise nicht , da es sich um ein Intranet handelt und nicht unbedingt bereits indiziert ist - und vielleicht , weil ich hoffe, dass auf einer Site dieser Größe bereits etwas vorhanden ist).

Wenn Sie Informationen zu Suchergebnissen, Seitentreffern, Zeitaufwand pro Seite und dergleichen haben, können Sie möglicherweise feststellen, ob es sich um eine Interaktion handelt effizient aus Anwendersicht:

Zum Beispiel hier ein paar mögliche Metriken, die einige Hinweise geben könnten:

Betrachtet man die Effizienz der Suchergebnisse ...

  • die beliebtesten Suchbegriffe
  • das Ranking der Seiten als Ergebnis dieser Suche
  • die Anzahl der Besuche auf den Seiten in dieser Ergebnisliste
  • und die tatsächliche Zeit, die für das Betrachten jeder dieser Seiten aufgewendet wurde

... kann möglicherweise festgestellt werden, ob die Seiten, die für die Nutzer am nützlichsten sind, nicht diejenigen sind, die in der Rangliste am höchsten erscheinen - was darauf hinweist, dass die zugehörigen Metadaten, Seitentitel und anderen SEO-Informationen auf den Seiten vorhanden sind seine Arbeit richtig machen (oder dass die Suchwerkzeuge nicht auf dem neuesten Stand sind).

Sieh dir an, wie hart der Benutzer arbeiten muss ...

  • die Seiten, auf denen die Leute die meiste Zeit verbringen
  • navigationsrouten zu diesen Seiten von den ursprünglichen Zielseiten
  • die Pfade zu den Zielseiten im Vergleich zu der Zeit, die auf den Übergangsseiten auf der Route verbracht wurde.

d.h. analysieren, wie Personen Seiten von geringer Relevanz umgehen, bevor sie schließlich auf einer Seite landen, auf der sie viel Zeit verbringen.

Wenn Sie Daten mit den ursprünglichen Suchbegriffen und dem Wortlaut von Links abgleichen können, können Sie möglicherweise feststellen, dass einige Seiten für den Benutzer nützlich erscheinen oder in den Suchergebnissen höher erscheinen, andere jedoch tatsächlich von geringer Relevanz sind als eine langwierige Route zu einer echten Seite von Interesse bereitzustellen.

Bei einer sehr guten Analyse können Sie eine große Auswahl an Metriken abrufen, um nach Mustern und Problemen zu suchen. Wenn besorgniserregende Muster auftreten, untersuchen Sie, warum

Wenn Sie keine Analysen haben, sollten Sie einige installieren, je nachdem, ob die Site stark genug genutzt wird, um Ihnen nützliche Daten in der verfügbaren Zeit zurückzugeben - obwohl ich vermute, dass dies unwahrscheinlich ist.


Einiges davon berührt eindeutig die Suchmaschinenoptimierung, und vielleicht hat hier jemand mehr Erfahrung in der Anwendung und Interpretation von Analysen, die helfen können?

6
Roger Attrill

Wenn die Informationen nicht klassifiziert sind, würde ich Menschen für diese Aufgabe verwenden. Insbesondere Amazon Mechanical Turk. Einige Aufgaben zahlen den Arbeitern nur einen Cent. https://www.mturk.com/mturk/welcome

Ich bin damit einverstanden, dass die Seitenanalyse hilfreich wäre. Seiten, die nicht besucht werden, können mit ungenauen Metadaten korrelieren.

Menschen befolgen keine Regeln, wenn es eine Belohnung dafür gibt, sie zu brechen (Zeit zu sparen) und keine klare Belohnung dafür, dass sie ihnen folgen. Das Problem wird so lange bestehen bleiben, bis sie eine Reihe von vorgefertigten Vorlagen zur Auswahl haben und nicht mehr eingeben können, was sie wollen. Wenn es schneller ist, das Richtige zu tun, ist es wahrscheinlicher, dass sie es tun. Im Idealfall gibt es nicht nur eine formelle Inhaltsrichtlinie, sondern auch eine regelmäßige Überprüfung der Inhalte.

1

Ich habe vor einigen Jahren bei der Ars Electronica in Linz eine Technik namens TEXTY zum schnellen Scannen von Text gesehen, ohne sie zu lesen. Es könnte dir helfen.

Es wurde von Jaume Nualart erstellt und im Ars Media Archive eingerichtet, um bestimmte Schlüsselwörter, Zahlen (Jahre) und Namen zu überprüfen. Jede Kategorie erhielt eine eigene Farbe und das Wort wurde mit einem farbigen Balken oder Punkt überdruckt. Alle anderen Wörter - nicht durch Farbbalken ersetzt - werden gelöscht. Schließlich hatten sie ein Blatt mit farbigen Balken und erhielten einen schnellen Überblick über seine Bedeutung nach Farben, Anzahl der Farben und Positionen. Ich denke, die Suche nach richtigen Keywords ist der Schlüssel zum Erfolg.

Darüber hinaus können Sie auf dieser Grundlage weitere Visualisierungstechniken verarbeiten. Überprüfen Sie diesen Link von Visualization Showcase von Ars Media Archive

Die TEXTY-Technik, die in früheren Aussagen der Ars-Jury verwendet wurde, und das Team konnten zeigen, wie sich Aussagen im Laufe der Jahre von sehr technischen Worten am Anfang zu einer geschlossenen Kunsthalbkugel verschoben haben, indem sie in den letzten Jahren stark mit Künstlernamen verknüpft wurden.

enter image description here Bild von http://vis.mediaartresearch.at/webarchive/public/view/mid:44

0
FrankL