Python - HTMLParser

Inhaltsverzeichnis
Bei Arbeiten mit dem Parser In Python es wird empfohlen, wenn wir mit Dokumenten arbeiten HTML Standard verwenden XHTML, da letzteres strenger ist, wenn es um die Handhabung der öffnenden und schließenden Tags von Elementen geht, können wir damit Programme einfacher machen, die dies interpretieren können.
In Python wir haben verfügbar HTMLParser, dies sollte nicht mit der Klasse des gleichen Modulnamens verwechselt werden htmllib, da die erste Teil der Standardbibliothek ist, wenn wir ein Dokument erhalten von Ordentlich wir können benutzen HMTLPser um seinen Inhalt durchsuchen zu können.
Verwenden von HTMLParser
Verwenden Sie die HTMLParser, es bedeutet wirklich, es unterzuordnen, damit wir die Methoden nach Belieben überschreiben und somit unsere Anforderungen erfüllen können. Sehen wir uns unten eine Liste der wichtigsten Methoden an, die wir bei der Verwendung erhalten HTMLParser.
  • handle_starttag (tag, attrs): Wenn ein Start-Tag gefunden wird, ist attrs eine Folge von Paaren (Name, Wert).
  • handle_startendtag (tag, attrs): Wird für leere Etiketten verwendet. Standardmäßig behandelt es das Starten und Herunterfahren getrennt.
  • handle_endtag (Tag): Wird verwendet, wenn ein schließendes Tag gefunden wird.
  • handle_data (Daten): Es wird verwendet, wenn wir Textdaten finden.
  • handle_charref (ref): Es wird verwendet, wenn mit Zeichenreferenzen der Form & # ref; gearbeitet wird.
  • handle_entityref (Name): Wir verwenden es, wenn wir Verweise auf Entitäten der Form & name; haben.
  • handle_comment (Daten): Wird nur aufgerufen, wenn es einen kommentierten Inhalt gibt.
  • handle_decl (decl): Es wird für Deklarationen des Formulars verwendet.
  • handle_pi (Daten): Es wird verwendet, um Anweisungen zu verarbeiten.
Nachdem wir die wichtigsten Methoden gesehen haben, HTMLParserAls nächstes sehen wir ein Bild mit einem Codebeispiel und erklären dann, woraus es besteht:

VERGRÖSSERN

Als erstes fällt uns auf, dass dafür Screen-Scraping wir werden nicht benutzen OrdentlichDies liegt daran, dass der HTML-Code, den wir untersuchen werden, nicht schlecht geformt ist. Dann sehen wir, dass das erste, was wir deklarieren, einige boolesche Variablen sind, mit denen wir steuern, ob wir uns in einem Element befinden H4 oder innerhalb eines Link-Elements oder Links.
Wir haben etwas Besonderes mit der Methode handle_dataDa wir uns in einer realen Lebensumgebung befinden, müssen wir uns auf die komplexesten Szenarien vorbereiten und damit meinen wir, dass wir, da es fast sicher ist, dass wir die notwendigen Informationen nicht beim ersten Anruf erhalten, diese Methode vorbereiten, um sie zu erhalten in Teilen, sobald wir alles haben, was wir tun, ist die Daten zusammenzuführen.
Die Aktion unseres Programms beginnt, wenn wir die Methode aufrufen Zufuhr () an die wir den Text übergeben, der der Inhalt der Webseite ist, die wir mit der Methode erhalten urlopen () und wenn all dies verarbeitet wurde, rufen wir die Methode close() auf.
Endlich haben wir damit ein Programm von Screen-Scraping lesbarer als die Verwendung von regulären Ausdrücken und etwas robuster in dem Aspekt, dass wir uns nicht auf feste Strukturen beschränken, damit wir unsere Informationen korrekt erhalten.
Damit beenden wir unser HTMLParser-Tutorial, wie wir sehen, gibt es viele Möglichkeiten, zu diesen Lösungen zu gelangen, um die Informationen von einer Webseite zu erhalten.Hat dir dieses Tutorial gefallen und geholfen?Sie können den Autor belohnen, indem Sie diesen Knopf drücken, um ihm einen positiven Punkt zu geben
wave wave wave wave wave