Python - HTMLParser

Sommario
Quando si esegue il lavoro con il analizzatore in Pitone si raccomanda che se lavoriamo con i documenti HTML usa la norma XHTML, poiché quest'ultimo è più rigoroso quando si tratta di gestire i tag di apertura e chiusura degli elementi, con questo possiamo creare programmi più facilmente in grado di interpretarlo.
Nel Pitone abbiamo a disposizione HTMLParser, questo non deve essere confuso con la classe con lo stesso nome del modulo htmllib, poiché il primo fa parte della libreria standard, quando otteniamo un documento da Ordinata possiamo usare HMTLParser per poterne sfogliare il contenuto.
Utilizzo di HTMLParser
Usa il HTMLParser, significa proprio sottoclasserlo, in modo da poter sovrascrivere i metodi a nostro piacimento e quindi poter soddisfare i nostri requisiti, vediamo di seguito un elenco dei principali metodi che otteniamo quando utilizziamo HTMLParser.
  • handle_starttag (tag, attributi): Quando viene trovato un tag di inizio, attrs è una sequenza di coppie (nome, valore).
  • handle_startendtag (tag, attributi): Utilizzato per etichette vuote. Per impostazione predefinita, gestisce l'avvio e l'arresto separatamente.
  • handle_endtag (tag): Utilizzato quando viene trovato un tag di chiusura.
  • handle_data (dati): Viene utilizzato quando troviamo dati testuali.
  • handle_charref (rif): Viene utilizzato quando si lavora con riferimenti a caratteri della forma & # ref;.
  • handle_entityref (nome): Lo usiamo quando abbiamo riferimenti a entità della forma & name;.
  • handle_comment (dati): Viene chiamato solo quando è presente un contenuto commentato.
  • handle_decl (decl): Viene utilizzato per le dichiarazioni del modulo.
  • handle_pi (dati): Viene utilizzato per elaborare le istruzioni.
Una volta visti i principali metodi di HTMLParserSuccessivamente, vedremo un'immagine con un esempio di codice e poi spiegheremo in cosa consiste:

INGRANDIRE

La prima cosa che notiamo è che per questo Raschiamento dello schermo non useremo OrdinataQuesto perché l'HTML che andremo a ispezionare non è formato male, quindi vediamo che la prima cosa che dichiariamo sono alcune variabili booleane con le quali controlleremo se siamo all'interno di un elemento H4 o all'interno di un elemento di collegamento o collegamento.
Abbiamo qualcosa in particolare con il metodo handle_dataPoiché siamo in un ambiente di vita reale, dobbiamo prepararci per gli scenari più complessi e con questo intendiamo che poiché è quasi certo che non otterremo le informazioni necessarie alla prima chiamata, prepariamo questo metodo per poterlo ottenere in parte, una volta ottenuti, non facciamo altro che unire i dati.
L'azione del nostro programma inizia quando chiamiamo il metodo foraggio () a cui passiamo il testo cioè il contenuto della pagina web che otteniamo con il metodo urlopen () e quando tutto questo è stato elaborato procediamo a chiamare il metodo close().
Finalmente con questo abbiamo realizzato un programma di Raschiamento dello schermo più leggibile rispetto all'utilizzo di espressioni regolari e un po' più robusto nell'aspetto che non ci limitiamo a strutture fisse, con questo possiamo ottenere correttamente le nostre informazioni.
Con questo finiamo il nostro tutorial HTMLParser, come possiamo vedere ci sono molti modi per arrivare a queste soluzioni, al fine di ottenere le informazioni da una pagina web.Ti è piaciuto e hai aiutato questo Tutorial?Puoi premiare l'autore premendo questo pulsante per dargli un punto positivo
wave wave wave wave wave