it-swarm.com.de

Dateiname sortieren | Bei der Ausgabe von uniq> werden die Duplikate nicht entfernt

Also benutze ich den Befehl wie folgt:

sort file1.txt | uniq > cleared.txt

Die cleared.txt-Datei hat jedoch genau die gleiche Größe und alle Duplikate sind noch vorhanden. Könnten Sie bitte erklären, was an meiner Arbeitsweise falsch ist, und vielleicht auch Alternativen nennen?

Vielen Dank!

Update: Ich habe versucht, den folgenden awk-Befehl zu verwenden, aber die Duplikate sind noch vorhanden.

awk '!seen[$0]++'

Vielleicht kann es nützlich sein zu erwähnen, dass die Datei, die ich bereinigen möchte, aus verschiedenen Dateien stammt, die möglicherweise aus verschiedenen Ländern/Layouts stammen. Bitte beachten Sie, dass ich eine Kopie der duplizierten Wörter behalten möchte.

Höchstwahrscheinlich haben Sie nachgestellte Leerzeichen, die die nicht eindeutige Bezeichnung verursachen. Versuchen Sie, sie mit xargs zu entfernen, wie:

sort file1 | xargs -n 1 |uniq
3
ubfan1