it-swarm.com.de

zeilenumbrüche aus chaotischen Zeichenketten in Pandas-Datenrahmenzellen entfernen?

Ich habe mehrere Methoden zum Aufteilen und Entfernen der Zeichenfolgen in meinem Pandas-Datenrahmen verwendet, um alle Zeichen zu entfernen, aber aus irgendeinem Grund möchte er einfach nicht die Zeichen löschen, die an andere Wörter angehängt sind, obwohl ich teile sie auf. Ich habe einen Pandas-Datenrahmen mit einer Spalte, die Text von Webseiten mithilfe von Beautifulsoup erfasst. Der Text wurde bereits von beautifulsoup ein wenig bereinigt, aber die Zeilenumbrüche anderer Zeichen konnten nicht entfernt werden. Meine Saiten sehen ein bisschen so aus:

"Die Entwicklung von Spielen zum Anfassen. Wir werden eine Reihe von Softwaretechnologien untersuchen, die für Spiele relevant sind, einschließlich Programmiersprachen, Skriptsprachen, Betriebssysteme, Dateisysteme, Netzwerke, Simulationsmodelle und Multimedia-Designsysteme. Wir werden studieren auch einige der grundlegenden wissenschaftlichen Konzepte aus der Informatik und verwandten Feldern, einschließlich "

Gibt es eine einfache Python-Methode, um diese "\ n" Zeichen zu entfernen? 

Danke im Voraus!

4
Calvin

EDIT: Die richtige Antwort darauf war:

df = df.replace(r'\\n',' ', regex=True) 

Ich denke du brauchst replace :

df = df.replace('\n','', regex=True)

Oder:

df = df.replace('\n',' ', regex=True)

Oder:

df = df.replace(r'\\n',' ', regex=True)

Probe:

text = '''hands-on\ndev nologies\nrelevant scripting\nlang
'''
df = pd.DataFrame({'A':[text]})
print (df)
                                                   A
0  hands-on\ndev nologies\nrelevant scripting\nla...

df = df.replace('\n',' ', regex=True)
print (df)
                                                A
0  hands-on dev nologies relevant scripting lang 
16
jezrael

bei unordentlichen Daten sollte es sinnvoll sein, alle Whitespaces df.replace(r'\s', '', regex = True, inplace = True) zu entfernen.

1
Pawel Piela
   df = 'Sarah Marie Wimberly So so beautiful!!!\nAbram Staten You guys look good man.\nTJ Sloan I miss you guys\n'

   df = df.replace(r'\\n',' ', regex=True)

Dies funktionierte für die chaotischen Daten, die ich hatte.

0