it-swarm.com.de

text zusammenfassen oder Text vereinfachen

Gibt es eine Bibliothek, vorzugsweise in Python, mindestens aber Open Source, die natürlichsprachlichen Text zusammenfassen oder vereinfachen kann?

29
captainandcoke

Ich bin mir nicht sicher, ob es derzeit Bibliotheken gibt, die dies tun, wie die Textzusammenfassung oder zumindest verständlich . Die Textzusammenfassung ist nicht einfach durch eine einfache Plug & Play-Bibliothek zu bewerkstelligen.

Hier sind ein paar Links, die ich zu Projekten/Ressourcen gefunden habe, die sich auf die Textzusammenfassung beziehen, um Ihnen den Einstieg zu erleichtern:

Hoffentlich hilft das :)

17
Rion Williams

Vielleicht kannst du sumy versuchen. Es ist eine recht kleine Bibliothek, die ich in Python geschrieben habe. Es gibt Ansätze von Luhn und Edmundson, LSA-Methode, SumBasic-, KL-Sum-, LexRank- und TextRank-Algorithmen. Apache2 ist lizenziert und unterstützt tschechische, slowakische, englische, französische, japanische, chinesische, portugiesische, spanische und deutsche Sprachen.

Sie können eine Ausgabe eröffnen oder eine Pull-Anfrage senden, falls etwas fehlt.

25
Mišo

Ich brauchte auch dasselbe, aber ich konnte nichts in Python finden, das mir half, ein Comprehensive Ergebnis zu erzielen.

Also fand ich diesen Web-Service wirklich nützlich und sie haben ein kostenloses API , das ein JSON-Ergebnis liefert, und ich wollte es mit Ihnen teilen.

Schau es dir hier an: http://smmry.com

4
ant0nisk

Werfen Sie einen Blick auf diesen Artikel , der eine detaillierte Studie dieser Methoden und Pakete durchführt:

  1. Lex_rank ( sumy )
  2. LSA (sumy)
  3. Luhn (Sumy)
  4. PyTeaser
  5. Gensim TextRank
  6. PyTextRank
  7. Google TextSum

Das Ende des Artikels hat eine ' summary '. 

Der Autor von sumy @ miso.belica hat in einer Antwort oben eine Beschreibung gegeben.

Verschiedene andere ML-Techniken, wie zum Beispiel Facebook/NAMAS und Google/TextSum, sind auf dem Vormarsch, erfordern aber immer noch eine umfassende Ausbildung in Gigaword Dataset und etwa 7000 GPU-Stunden. Der Datensatz selbst ist ziemlich teuer.

Zusammenfassend würde ich sagen, dass sumy momentan die beste Option auf dem Markt ist, wenn Sie keinen Zugang zu High-End-Maschinen haben. Vielen Dank @ miso.belica für dieses wunderbare Paket.

2
Ganesh K

Nicht Python, sondern MEAD führt eine Textzusammenfassung durch (in Perl). Was dabei herauskommt, ist in der Regel verständlich, wenn auch nicht immer besonders flüssig klingend. Schauen Sie sich auch die Datei summarization.com an, um eine Menge guter Informationen zur Textzusammenfassungsaufgabe zu erhalten.

2
ealdent

Probieren Sie Open Text Summarizer aus, das unter der GPL Open Source-Lizenz veröffentlicht wird. Es funktioniert einigermaßen gut, aber seit 2007 gibt es keine Entwicklungsarbeit mehr. 

Der ursprüngliche Code ist in C geschrieben (sowohl eine Bibliothek als auch ein Befehlszeilenhilfsprogramm), aber es gibt Wrapper in verschiedenen Sprachen:

2
JohnTESlade

Vor einiger Zeit habe ich eine Zusammenfassungsbibliothek für Python mit NLTK geschrieben, wobei ein Algorithmus aus der Classifier4J-Bibliothek verwendet wurde. Es ist ziemlich einfach, aber es kann den Bedürfnissen aller entsprechen, die eine Zusammenfassung benötigen: https://github.com/thavelick/summarize

0