it-swarm.com.de

Was sind die Nachteile des Entfernens von HTML-Tags vor dem Indizieren?

Dies ist eine dumme Frage, aber ich bin etwas verwirrt. Was sind die Nachteile des Entfernens von HTML-Tags vor dem Indizieren der Seiten?

2
Bhargav

Ich kann mir zwei gute Gründe vorstellen.

  • Durch Entfernen aller HTML-Tags entfernen Sie die gesamte Semantik des Texts.
    Dies benachteiligt jeden Rangordnungsalgorithmus - ansonsten handelt es sich bei einer Seite mit "Baum" in einer Überschrift eher um Bäume als um eine Seite mit "Baum" im Text.

  • Sie verwerfen auch Attribute, die zum Indizieren verwendet werden könnten.
    Zur Veranschaulichung könnte ein Link zu einem Bild eines Baums einen Alternativtext enthalten, der den Baum beschreibt. Wenn Sie den Alternativtext verwerfen, wird Ihre Seite möglicherweise nicht in der Suche angezeigt.

2
Bevan

Es hängt von ab, wie Sie sie entfernen. Wenn Sie eine intelligente Bibliothek wie jsoup oder tagsoup oder neko verwenden, erhalten Sie nur Vorteile. Wenn Sie eine fehlerhafte Bibliothek verwenden, können Ihre Inhalte für Sie verloren gehen.

0
bmargulies