Pdfgrep-Befehle zum Durchsuchen von PDF-Dateien Linux-Terminal

Die Betriebssysteme basieren auf Befehlszeilen, die uns mehrere Optionen bieten, um die Verteilungsfähigkeiten zu erhöhen, indem sie Suchen, Administrationsaktionen, Support und vieles mehr ausführen können.

Genau eine dieser Optionen ist mit der Möglichkeit verbunden, unter Linux nach bestimmten Dateitypen zu suchen und so leicht auf deren Inhalt zuzugreifen, und deshalb werden wir heute über pdfgrep sprechen, das sich auf die Suche nach PDF-Dateien konzentriert.

Was ist pdfgrep?Pdfgrep ist ein Befehlszeilenprogramm zum einfachen und funktionalen Durchsuchen von Text in PDF-Dateien, das uns Zeit spart, auf jede Datei zuzugreifen und mit PDF-Tools nach dem Text zu suchen.
Einige seiner Eigenschaften sind:

  • Kompatibel mit Grep können wir viele grep-Parameter wie -r, -i, -n oder -c ausführen.
  • Möglichkeit, in mehreren PDF-Dateien nach Text zu suchen
  • Empfohlene Farben, diese GNU Grep-Farboption wird standardmäßig unterstützt und aktiviert.
  • Unterstützt die Verwendung von regulären Ausdrücken.
  • Gratis Software

1. Pdfgrep unter Linux installieren

Schritt 1
In diesem Fall verwenden wir Ubuntu, wofür es ausreicht, die folgende Zeile auszuführen. Dort geben wir den Buchstaben S ein, um den Download und die Installation der Pakete zu akzeptieren.

 sudo apt installieren pdfgrep

Schritt 2
Andere Installationsoptionen sind:

  • Laden Sie die .TAR.GZ-Datei unter dem folgenden Link herunter.

Schritt 3

  • Oder führen Sie den folgenden Befehl aus:
 git-Klon https://gitlab.com/pdfgrep/pdfgrep.git
Schritt 4
Geben Sie dann jede der folgenden Zeilen in ihrer Reihenfolge ein:
 ./configure make sudo make install

2. Verwenden Sie PDFgrep unter Linux

Schritt 1
Sobald pdfgrep installiert ist, ist dies die zu verwendende Syntax:

 pdfgrep [OPTION…] MUSTER [DATEI]
Schritt 2
Jedes der Elemente ist:
  • Option: Gibt die Attribute an, die wir in der Suche hinzufügen können, zum Beispiel -ich oder --Fall ignorieren, die die Unterscheidung von Groß- und Kleinbuchstaben zwischen dem von uns angegebenen Muster und dem Muster, das mit der Datei übereinstimmen muss, ignorieren.
  • Muster: Gibt einen erweiterten regulären Ausdruck an.
  • Datei: Dies ist die PDF-Datei, in der die Suche ausgeführt werden soll.

Schritt 3
Wir beginnen mit einer einfachen Suche, suchen zum Beispiel nach dem Wort Solvetic in der Datei Solvetic.pdf, dazu führen wir Folgendes aus:

 pdfgrep Solvetic Solvetic.pdf

VERGRÖSSERN

Schritt 4
In diesem Fall existiert dieser Begriff nur einmal in dieser Datei, aber jetzt suchen wir in einer offiziellen Microsoft-PDF-Datei nach dem Begriff Windows und sehen das Ergebnis:

VERGRÖSSERN

Schritt 5
Wir können sehen, dass das gesuchte Wort hervorgehoben wird, was seine Lokalisierung erleichtert. Wenn wir nun den Parameter hinzufügen -In, Es ist möglich, die Ergebnisse mit der Seitenzahl zu sehen, auf der dieser Begriff gefunden wurde:

VERGRÖSSERN

Schritt 6
Eine andere Möglichkeit, die wir mit pdfgrep verwenden können, ist die PDF-Datei(en), die einen bestimmten Begriff enthalten, aufzulisten, dazu führen wir Folgendes aus:

 pdfgrep Solvetic * pdf
Schritt 7
Auf diese Weise wird die PDF-Datei mit dem Begriff Solvetic aufgelistet:

VERGRÖSSERN

Schritt 8
Wenn wir die PDF-Datei öffnen möchten, können wir den folgenden Befehl ausführen:

 xdg-open (Datei.PDF)

VERGRÖSSERN

Schritt 9
Die allgemeinen Optionen, die uns pdfgrep bietet, sind:

-i, --ignore-caseIgnorieren Sie Groß-/Kleinschreibung in Quell- und Eingabedateien.

-F, --fixed-stringsInterpretiert PATTERN als eine Liste fester Zeichenfolgen, die durch neue Zeilen getrennt sind.

--ZwischenspeicherVerwenden Sie einen Cache für gerenderten Text, um den Vorgang bei großen Dateien zu beschleunigen.

-P, --perl-regexpInterpretiert PATTERN als Perl-kompatiblen regulären Ausdruck (PCRE).

-H, --with-filenameDrucken Sie den Dateinamen für jede Übereinstimmung aus.

-h, --no-DateinameUnterdrückt das Dateinamenpräfix in der Ausgabe.

-n, --SeitennummerSetzen Sie jedem Treffer die Nummer der Seite voran, auf der der Suchbegriff gefunden wurde.

-c, --countUnterdrückt die normale Ausgabe und gibt stattdessen die Anzahl der Übereinstimmungen für jede Eingabedatei aus.

-p, --SeitenanzahlDrucken Sie die Anzahl der Übereinstimmungen pro Seite. Es impliziert -n.

--FarbeEs ermöglicht das Hervorheben von Dateinamen, Seitenzahlen und passendem Text mit verschiedenen Sequenzen, um sie im Terminal farbig anzuzeigen, einige der Optionen sind Immer, Nacken oder automatisch.

-o, --only-matchingDrucken Sie nur den übereinstimmenden Teil einer Zeile ohne umgebenden Kontext.

-r, --rekursivEs erlaubt uns, alle Dateien (eingeschränkt durch --include und --exclude) in jedem Verzeichnis rekursiv zu durchsuchen und den symbolischen Links nur zu folgen, wenn sie sich auf der Befehlszeile befinden.

-R, --recursive-referenceWie -r, aber folgt allen symbolischen Links.

-leise oder -qEs ermöglicht uns, die Anwendung zu beenden.

Damit wird pdfgrep zur idealen Lösung beim Arbeiten mit PDF-Dateien in Linux-Umgebungen.

Sie werden die Entwicklung der Website helfen, die Seite mit Ihren Freunden teilen

wave wave wave wave wave