Ordinato in Python

Sommario
Il Raschiamento dello schermo o screen scraping, ci permette di estrarre informazioni da una pagina web scaricando detta pagina e successivamente elaborandola con un programma; Questo è molto utile soprattutto quando abbiamo bisogno di informazioni aggiornate da un sito Web che non ne ha API disponibile o qualcosa Servizio web.
Per eseguire un Raschiamento dello schermo, dobbiamo semplicemente scaricare il contenuto ed essere in grado di manipolarlo in modo da poter estrarre ciò che ci interessa, per questo possiamo utilizzare varie tecniche come l'uso di espressioni regolari o forse aiutarci con altre librerie come Ordinata.
Cos'è Tidy?
Saper leggere a HTML Dobbiamo fidarci della sua struttura, questo perché siccome non sappiamo esattamente che contenuto ha, almeno sappiamo che se cerchiamo strutture HTML qualcosa che possiamo ottenere, tuttavia, non sempre il HTML è ben formato, sia per un errore di omissione, sia perché il programmatore sa che alcuni browser tendono ad interpretare l'HTML anche se ci sono dei difetti.
A questo punto entra in gioco Ordinata, che altro non è che uno strumento che ci permette di riparare HTML malformato, è altamente configurabile e ci permette di personalizzare il modo in cui deve interpretare le correzioni che può apportare, in questo modo sapremo con certezza che tipo di documento risulterà alla fine.
Vediamo prima l'immagine di un codice HTML Con molti errori, questo codice può essere interpretato da alcuni browser, tuttavia non è un codice corretto nella sua formazione:

Come possiamo vedere, ogni riga ha praticamente un errore, il più comune è la mancata chiusura dei tag, poi vediamo i tag che si chiudono nel posto sbagliato, ecc.
Allora usiamo Ordinata e vediamo il codice già corretto, lì ci renderemo conto di quanto sia importante questa libreria e di tutto l'aiuto che può darci:

Nell'immagine vediamo come è stato corretto da Ordinata, dobbiamo notare che sebbene Tidy sia una grande libreria, probabilmente non può risolvere tutti gli errori di HTMLTuttavia, ci aiuta molto quando si tratta di costruire il nostro HTML ben formato.
Mettiti in ordine
Ci sono diversi modi per ottenere Tidy attraverso la sua pagina ufficiale http://tidy.sf.net. possiamo ottenere la libreria, tuttavia non c'è modo in quella fonte per integrarla con Pitone quindi dobbiamo ricorrere a una fonte alternativa, per questo abbiamo due opzioni: uTidy disponibile su http: / /utidylib.berlios.de e mxTidy disponibile su http: / /egenix.com/files/python/mxTidy.html, uTidy sembra essere il più aggiornato dei due ma mxTidy è un po' più facile da installare, sta a tutti vedere quale usare.
Vediamo un esempio di come si usa Ordinata Una volta installato, nel codice seguente ciò che faremo è aprire un HTML con errori e leggerlo utilizzando Tidy, quindi mostreremo le informazioni sullo schermo.
 from subprocess import Popen, PIPE text = open ('messy.html') read() tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) tidy. stdin.close() stampa tidy.stdout.read() 

Come possiamo vedere, è abbastanza semplice da usare OrdinataUna volta che abbiamo abbastanza fiducia in esso, conoscendo bene il comportamento della libreria, possiamo ottenere cose molto interessanti.Ti è piaciuto e hai aiutato questo Tutorial?Puoi premiare l'autore premendo questo pulsante per dargli un punto positivo
wave wave wave wave wave