it-swarm.com.de

Unüberwachte Sentiment-Analyse

Ich habe viele Artikel gelesen, in denen die Notwendigkeit eines ersten Satzes von Texten erläutert wird, die entweder als "positiv" oder "negativ" eingestuft werden, bevor ein Sentiment-Analysesystem wirklich funktioniert.

Meine Frage ist: Hat irgendjemand versucht, eine einfache Überprüfung von "positiven" Adjektiven im Vergleich zu "negativen" Adjektiven durchzuführen, wobei alle einfachen Negatoren berücksichtigt wurden, um zu vermeiden, dass "nicht glücklich" als positiv eingestuft wird? Wenn ja, gibt es Artikel, in denen diskutiert wird, warum diese Strategie nicht realistisch ist?

41
Trindaz

Ein classic paper von Peter Turney (2002) erläutert eine Methode zur Durchführung einer unbeaufsichtigten Stimmungsanalyse (positive/negative Klassifizierung), wobei nur die Wörter ausgezeichnet und schlecht als a verwendet werden Samen gesetzt. Turney verwendet die gegenseitige Information anderer Wörter mit diesen beiden Adjektiven, um eine Genauigkeit von 74% zu erreichen.

58
Fred Foo

Ich habe nicht versucht, eine ungeschulte Gefühlsanalyse durchzuführen, wie Sie sie beschreiben, aber ich würde sagen, dass Sie das Problem zu stark vereinfachen. Die einfache Analyse von Adjektiven reicht nicht aus, um das Gefühl eines Textes zu erfassen. Betrachten Sie beispielsweise das Wort "dumm". Alleine würden Sie das als negativ einstufen, aber wenn eine Produktbewertung "... [x] -Produkt haben würde, würden ihre Konkurrenten dumm aussehen, wenn sie nicht zuerst an diese Funktion gedacht hätten ...", dann wäre die Stimmung dort definitiv positiv . Der größere Kontext, in dem Wörter erscheinen, ist definitiv in so etwas von Bedeutung. Aus diesem Grund reicht ein ungeübter Wortbeutel nicht aus (geschweige denn ein noch begrenzterer Beutel an Adjektiven), um dieses Problem angemessen zu lösen.

Die vorklassifizierten Daten ("Trainingsdaten") helfen dabei, dass das Problem von einem Versuch, zu bestimmen, ob ein Text von Grund auf positiv oder negativ ist, verschoben wird, und zu ermitteln, ob der Text positiven Texten oder negativen Texten ähnlicher ist. und klassifizieren es so. Der andere große Punkt ist, dass Textanalysen wie die Stimmungsanalyse oft stark von den unterschiedlichen Merkmalen von Texten abhängig von der jeweiligen Domäne beeinflusst werden. Aus diesem Grund ist es genauso wichtig, einen guten Datensatz zu trainieren (dh genaue Daten aus der Domäne, in der Sie arbeiten, und die hoffentlich repräsentativ für die Texte ist, die Sie klassifizieren müssen), genauso wichtig wie das Erstellen einer guten Ware System zum Klassifizieren mit.

Nicht gerade ein Artikel, aber ich hoffe, das hilft.

16
waffle paradox

Der von larsmans erwähnte Aufsatz von Turney (2002) ist eine gute Grundausgabe. In einer neueren Studie führen Li und He [2009] einen Ansatz ein, der Latent Dirichlet Allocation (LDA) verwendet, um ein Modell zu trainieren, das die Gesamtstimmung und das Thema eines Artikels gleichzeitig völlig unbeaufsichtigt klassifiziert. Die erreichte Genauigkeit beträgt 84,6%.

6
Trung Huynh

Ich habe verschiedene Methoden der Sentiment-Analyse für das Opinion-Mining in Reviews ausprobiert. Was für mich am besten funktioniert hat, ist die im Liu-Buch beschriebene Methode: http://www.cs.uic.edu/~liub/WebMiningBook.html In diesem Buch verglichen Liu und andere viele Strategien und diskutierte verschiedene Papiere zu Sentiment Analysis und Opinion Mining.

Obwohl es mein Hauptziel war, Features in den Meinungen zu extrahieren, habe ich einen Sentiment-Klassifikator implementiert, um die positive und negative Klassifizierung dieser Features zu ermitteln. 

Ich habe NLTK für die Vorverarbeitung (Word-Tokenisierung, POS-Tagging) und die Erstellung von Trigrammen verwendet. Dann benutzte ich auch die Bayes'schen Klassifizierer innerhalb dieser Einstellung, um sie mit anderen Strategien zu vergleichen, die Liu genau lokalisierte. 

Eine der Methoden beruht darauf, jedes Trigrram, das diese Informationen ausdrückt, als pos/neg zu kennzeichnen und einen Klassifizierer für diese Daten zu verwenden. Eine andere Methode, die ich ausprobierte und besser funktionierte (etwa 85% Genauigkeit in meinem Datensatz), berechnete die Summe der PMI-Werte (pünktliche gegenseitige Information) für jedes Wort im Satz und die Wörter ausgezeichnet/arm als Samen der pos/neg-Klasse. 

2
Luchux

David, 

Ich bin nicht sicher, ob dies hilft, aber Sie möchten vielleicht Jacob Perkins Blogpost über die Verwendung von NLTK für die Gefühlsanalyse untersuchen.

2
Dexter

Ich habe versucht, Schlüsselwörter anhand eines Affektwörterbuchs aufzuspüren, um das Sentiment-Label auf Satzebene vorherzusagen. Angesichts der Allgemeingültigkeit des Vokabulars (nicht domänenabhängig) waren die Ergebnisse nur etwa 61%. Das Papier ist auf meiner Homepage verfügbar.

In einer etwas verbesserten Version wurden Negationsadverbien berücksichtigt. Das gesamte System mit dem Namen EmoLib steht für die Demo zur Verfügung:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

Grüße,

2
atrilla

Es gibt keine magischen "Abkürzungen" in der Sentiment-Analyse, wie bei jeder anderen Art von Textanalyse, bei der versucht wird, das zugrunde liegende "Aboutness" eines Texts zu entdecken. Der Versuch, bewährte Textanalysemethoden durch vereinfachte "Adjektiv" -Kontrollen oder ähnliche Ansätze abzukürzen, führt zu Mehrdeutigkeiten, falschen Einstufungen usw., die am Ende des Tages zu einer schlechten Genauigkeit der Sentimente führen. Je knapper die Quelle (z. B. Twitter), desto schwieriger ist das Problem.

0
Jonathan Hujsak