Come clonare qualsiasi sito Web con HTTrack

Sommario

HTTrack è un software gratuito e multipiattaforma il cui scopo è l'acquisizione web, ovvero il download di tutto o parte di un sito Web, per poterlo successivamente navigare offline. Esiste una versione per Linux chiamata WebHTTrack, e la sua versione per Windows si chiama WinHTTrack. Possiamo scaricare il software HTTrack dal suo sito ufficiale:

Nel caso di Linux possiamo anche installarlo dai repository, utilizzando il seguente comando.

 sudo apt-get install httrack

Questo software è molto usato per copiare siti web e quindi caricarli su un altro server e utilizzarli per reindirizzare il traffico alla pagina di copia, inviando i visitatori a una pagina falsa. Viene utilizzato anche da chi vuole vedere il codice o il funzionamento di un determinato sito web. Diamo un'occhiata a un esempio con il sito web httrack.com, dove è ospitata l'applicazione.

 httrack "httrack.com"
Questo comando scaricherà i file dal web in una cartella www.httrack.com, che possiamo vedere localmente.

HTTrack prende qualsiasi sito Web e ne fa una copia nella cartella o nell'unità in cui siamo posizionati. Questo può essere utile durante la ricerca offline di dati sul sito web, come indirizzi email, informazioni utili per seo o struttura di un sito web. HTTrack è disponibile sia in Windows che in una versione per Linux, e l'uso è lo stesso solo che in Windows ha l'intergaz visuale.

Noi possiamo usa Httrack per test di penetrazione e test di sicurezza, poiché quando si effettua una replica di un sito Web consente di analizzare il contenuto completo e quali file vengono scaricati, per determinare che nessun file critico venga visto da un utente malintenzionato. Quando raccogliamo dati e informazioni, possiamo eseguire test, cercare e analizzare codice o parole chiave, possiamo anche raccogliere dati che possono essere utilizzati in seguito.

Anche in questo modo lgli hacker usano le copie fatte per caricarlo su un server con un dominio simile al web copiato per emulare i siti web e quindi utilizzarli tramite phishing per rubare dati a utenti ignari o per eseguire attacchi di ingegneria sociale. Httrack ha molte opzioni e parametri da utilizzare per migliorare il download per questo viene utilizzato il comando:

 httrack --help

Alcuni parametri importanti che possiamo utilizzare con lo strumento Httrack sono:

  • -m: indica la dimensione massima del file in byte da scaricare, ad esempio -m 20000000 equivalente a 20 mb.
  • -mimo: utilizzato per scaricare solo un certo tipo di file che indicheremo con la sua estensione, ad esempio con il comando
 httrack www.WEB.com -mime: application / * + mime: application / pdf
Usare httrack è semplice, dobbiamo aggiungere il dominio del sito web che vogliamo copiare e poi avviare la scansione posizionato in una directory sul nostro disco rigido dove andremo a memorizzare il sito web. Dobbiamo tenere in considerazione quanti link o contenuti può avere un sito web a causa della quantità di informazioni da scaricare. L'esplorazione della copia del web può essere utilizzata per cercare falle e vulnerabilità che possono mettere a rischio la navigazione, nonché per determinare quali parti è conveniente crittografare o aumentare la sicurezza.

Se l'obiettivo del download è trovare informazioni su un'azienda o elenchi di utenti, telefoni o altri dati in particolare per l'ingegneria sociale o tentare di falsificare un sito Web o un accesso per ottenere dati utente, HTTrack è uno strumento eccellente per entrambe le attività.

Interfaccia grafica con WebHTTrack
WebHTTrack è un'interfaccia grafica per httrack che viene utilizzata da un browser web e consente copie di interi siti Web per l'accesso offline e modifica automaticamente i collegamenti. Strumenti come WebHTTrack possono aiutare e consentire l'aggiornamento della copia senza dover ricordare i parametri per scaricare o copiare un sito Web e il suo contenuto. Possiamo installarlo con il comando:

 sudo apt-get install webhttrack
Poi a eseguirlo scriveremo lo stesso comando:
 webhttrack
a avvia l'interfaccia grafica, possiamo andare direttamente attraverso il menu delle applicazioni e stiamo cercando l'applicazione Sfoglia siti web in mirroring.

Un'altra opzione è semplicemente, come abbiamo detto prima dalla finestra del terminale, scrivere il comando webhttrack per avviare un server web locale sulla porta 8080, quindi aprire il browser tenendo conto che non è in modalità di navigazione in incognito o privata e nel browser scriviamo l'indirizzo localhost: 8080.

Questo ci mostrerà la procedura guidata grafica che ci aiuterà a lavorare con httrack, per iniziare dovremo configurare la lingua e fare clic su Avanti. Successivamente configureremo un Nuovo Progetto, il vantaggio di avere l'interfaccia grafica è che possiamo salvare i dati dei siti scaricati e i parametri utilizzati in un file di testo.

Successivamente assegneremo il sito web che andremo a copiare:

Quindi in Definisci opzioni configureremo i parametri e i filtri tramite una procedura guidata:

Quindi dopo aver configurato i filtri, nella schermata successiva inizieremo con la scansione.

Svantaggi dell'utilizzo di HttrackL'utilizzo dello strumento Httrack per eseguire questo tipo di scansione e download da un sito Web presenta alcuni svantaggi come i seguenti:

  • Non acquisisce contenuto dinamico o pagine con script.
  • Il download di siti troppo grandi o con file di grandi dimensioni può causare l'arresto anomalo del server.
  • Se utilizziamo httrack in troppe connessioni simultanee allo stesso sito Web, potremmo rallentare il server o metterlo fuori servizio.

Il tutorial in cui viene creato un codice per tenere traccia dei collegamenti potrebbe interessarti:

Tieni traccia dei collegamenti web con Python

Ti è piaciuto e hai aiutato questo Tutorial?Puoi premiare l'autore premendo questo pulsante per dargli un punto positivo

Aiuterete lo sviluppo del sito, condividere la pagina con i tuoi amici

wave wave wave wave wave