Comandi Pdfgrep per la ricerca di file PDF Terminale Linux

I sistemi operativi sono basati su righe di comando che ci offrono molteplici opzioni per aumentare le capacità di distribuzione potendo eseguire ricerche, azioni di amministrazione, supporto e molto altro.

Proprio una di queste opzioni è legata alla possibilità di cercare determinati tipi di file in Linux e quindi di accedere facilmente al loro contenuto ed è per questo che oggi parleremo di pdfgrep che è focalizzato sulla ricerca di file PDF.

Cos'è pdfgrepPdfgrep è un'utilità da riga di comando per cercare il testo nei file PDF in modo semplice e funzionale, risparmiando tempo dall'accesso a ciascun file e dalla ricerca del testo con gli strumenti PDF.
Alcune delle sue caratteristiche sono:

  • Compatibile con Grep, possiamo eseguire molti parametri grep come -r, -i, -n o -c.
  • Possibilità di cercare testo in più file PDF
  • Colori in primo piano, questa opzione di colore GNU Grep è supportata e abilitata per impostazione predefinita.
  • Supporta l'uso di espressioni regolari.
  • Software gratis

1. Installa Pdfgrep su Linux

Passo 1
In questo caso utilizzeremo Ubuntu per cui è sufficiente eseguire la seguente riga. Lì inseriamo la lettera S per accettare il download e l'installazione dei pacchetti.

 sudo apt install pdfgrep

Passo 2
Altre opzioni di installazione sono:

  • Scarica il file .TAR.GZ al seguente link.

Passaggio 3

  • Oppure esegui il seguente comando:
 git clone https://gitlab.com/pdfgrep/pdfgrep.git
Passaggio 4
Quindi inserisci ciascuna delle seguenti righe nel loro ordine:
 ./configure make sudo make install

2. Usa Pdfgrep su Linux

Passo 1
Una volta installato pdfgrep, questa sarà la sintassi da utilizzare:

 pdfgrep [OPZIONE…] PATTERN [FILE]
Passo 2
Ciascuno degli elementi è:
  • Opzione: indica gli attributi che possiamo aggiungere nella ricerca, ad esempio -io o --ignora-caso, che ignorano la distinzione di lettere maiuscole e minuscole tra il pattern che abbiamo indicato e quello che deve corrispondere al file.
  • Pattern: indica un'espressione regolare estesa.
  • File: è il file PDF in cui deve essere eseguita la ricerca.

Passaggio 3
Inizieremo con una semplice ricerca, ad esempio, cercheremo la parola Solvetic nel file Solvetic.pdf, per questo eseguiamo quanto segue:

 pdfgrep Solvetic Solvetic.pdf

INGRANDIRE

Passaggio 4
In questo caso, questo termine esiste una sola volta in detto file, ma ora cercheremo il termine Windows in un file PDF ufficiale di Microsoft e questo sarà il risultato che vedremo:

INGRANDIRE

Passaggio 5
Possiamo vedere che la parola cercata è evidenziata, il che ne facilita la localizzazione. Ora, se aggiungiamo il parametro -in, Sarà possibile vedere i risultati con il numero di pagina in cui è stato rilevato questo termine:

INGRANDIRE

Passaggio 6
Un'altra opzione che possiamo usare con pdfgrep è elencare i file PDF che contengono un determinato termine, per questo eseguiamo quanto segue:

 pdfgrep Solvetico * pdf
Passaggio 7
In questo modo verrà elencato il file PDF contenente il termine Solvetic:

INGRANDIRE

Passaggio 8
Se vogliamo aprire il file PDF possiamo eseguire il seguente comando:

 xdg-open (File.PDF)

INGRANDIRE

Passaggio 9
Le opzioni generali che pdfgrep ci offre sono:

-i, --ignore-caseIgnora le distinzioni di maiuscole e minuscole sia nei file di origine che in quelli di input.

-F, --stringhe-fisseInterpreta PATTERN come un elenco di stringhe fisse separate da nuove righe.

--cacheUsa una cache per il testo renderizzato per velocizzare le operazioni su file di grandi dimensioni.

-P, --perl-regexpInterpreta PATTERN come un'espressione regolare compatibile con Perl (PCRE).

-H, --con-nomefileStampa il nome del file per ogni corrispondenza.

-h, --no-nomefileSopprime il prefisso del nome file nell'output.

-n, --numero-paginaPrefissa ogni corrispondenza con il numero della pagina in cui è stato trovato il termine di ricerca.

-c, --countSopprime l'output normale e stampa invece il numero di corrispondenze per ciascun file di input.

-p, --conteggio pagineStampa il numero di corrispondenze per pagina. Implica -n.

--ColoreConsente di evidenziare i nomi dei file, i numeri di pagina e il testo di corrispondenza con diverse sequenze per visualizzarli a colori nel terminale, alcune delle sue opzioni sono Sempre, nuca o automatico.

-o, --only-matchingStampa solo la parte corrispondente di una linea senza alcun contesto circostante.

-r, --recursiveCi permette di cercare ricorsivamente tutti i file (limitati da --include e --exclude) in ogni directory, seguendo i collegamenti simbolici solo se sono sulla riga di comando.

-R, --riferimento-ricorsivoUguale a -r, ma segue tutti i collegamenti simbolici.

-quiet o -qCi permette di uscire dall'applicazione.

Con questo pdfgrep diventa una soluzione ideale quando si lavora con file PDF in ambienti Linux.

wave wave wave wave wave