Aufgeräumt in Python

Inhaltsverzeichnis
Das Screen-Scraping oder Screen Scraping, ermöglicht es uns, Informationen aus einer Webseite zu extrahieren, indem wir diese Seite herunterladen und anschließend mit einem Programm verarbeiten; Dies ist sehr nützlich, insbesondere wenn wir aktualisierte Informationen von einer Website benötigen, die keine hat API verfügbar oder einige Internetservice.
Um a . auszuführen Screen-ScrapingWir müssen einfach den Inhalt herunterladen und es so manipulieren, können, dass wir extrahieren, was uns interessiert, denn diese können wir verschiedene Techniken wie die Verwendung von regulären Ausdrücken oder vielleicht helfen uns mit anderen Bibliotheken wie Ordentlich.
Was ist Tidy?
Um a . lesen zu können HTML Wir müssen seiner Struktur vertrauen, denn da wir nicht genau wissen, welchen Inhalt es hat, wissen wir das zumindest, wenn wir nach Strukturen suchen HTML etwas, das wir bekommen können, aber nicht immer das HTML es ist wohlgeformt, entweder aufgrund eines Auslassungsfehlers oder weil der Programmierer weiß, dass einige Browser dazu neigen, HTML zu interpretieren, selbst wenn einige Fehler vorhanden sind.
An dieser Stelle kommt es ins Spiel Ordentlich, das ist nichts anderes als ein Werkzeug, das es uns ermöglicht, fehlerhaftes HTML zu reparieren, es ist hochgradig konfigurierbar und ermöglicht es uns, die Art und Weise anzupassen, wie es die Korrekturen interpretieren soll, die es vornehmen kann. Auf diese Weise wissen wir mit Sicherheit, welche Art von Dokument wird am Ende resultieren.
Sehen wir uns zuerst ein Bild eines Codes an HTML Bei vielen Fehlern kann dieser Code von einigen Browsern interpretiert werden, ist jedoch in seiner Bildung kein korrekter Code:

Wie wir sehen, hat jede Zeile praktisch einen Fehler, der häufigste ist das Nicht-Schließen von Tags, dann sehen wir Tags, die an der falschen Stelle schließen usw.
Dann verwenden wir Ordentlich und sehen wir uns den bereits korrigierten Code an, da werden wir erkennen, wie wichtig diese Bibliothek ist und welche Hilfe sie uns geben kann:

Im Bild sehen wir, wie es korrigiert wurde von Ordentlich, wir müssen beachten, dass Tidy zwar eine große Bibliothek ist, aber wahrscheinlich nicht alle Fehler von . lösen kann HTMLEs hilft uns jedoch sehr, wenn es darum geht, unser wohlgeformtes HTML zu erstellen.
Holen Sie sich Ordnung
Es gibt mehrere Möglichkeiten, Tidy über die offizielle Seite http://tidy.sf.net zu erhalten. Wir können die Bibliothek erhalten, jedoch gibt es in dieser Quelle keine Möglichkeit, sie zu integrieren Python Wir müssen also auf eine alternative Quelle zurückgreifen, dafür haben wir zwei Möglichkeiten: uTidy abrufbar unter http://utidylib.berlios.de und mxTidy verfügbar unter http://egenix.com/files/python/mxTidy.html, uTidy scheint die aktuellste der beiden zu sein, aber mxTidy ist etwas einfacher zu installieren, es liegt an jedem, zu sehen, welcher benutzen.
Sehen wir uns ein Beispiel für die Verwendung an Ordentlich Sobald wir es installiert haben, öffnen wir im folgenden Code einen HTML-Code mit Fehlern und lesen ihn mit Tidy aus, dann zeigen wir die Informationen auf dem Bildschirm an.
 from subprocess import Popen, PIPE text = open ('messy.html'). read() clean = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) clean.stdin.write (text) clean. stdin.close () drucke clean.stdout.read () 

Wie wir sehen, ist es ganz einfach zu bedienen OrdentlichSobald wir genug Vertrauen in sie haben, indem wir das Verhalten der Bibliothek gut kennen, können wir sehr interessante Dinge erreichen.Hat dir dieses Tutorial gefallen und geholfen?Sie können den Autor belohnen, indem Sie diesen Knopf drücken, um ihm einen positiven Punkt zu geben

Sie werden die Entwicklung der Website helfen, die Seite mit Ihren Freunden teilen

wave wave wave wave wave