Submitted by Erik Wegner
on
Body
Beschreibung
Nach der Fertigstellung eines LaTeX-Dokumentes steht die Frage, welche Worte in den Index aufgenommen werden sollen. Um die Beantwortung zu erleichtern, kann das folgende Befehlskonstrukt helfen, indem es alle Worte aus der LaTeX-Quelle filtert und sortiert mit der Angabe der Häufigkeit ausgibt.
pdftotext -enc UTF-8 -raw datei.pdf gawk '{for (i=1;i<=NF;i++) print $i}' datei.txt | sort | uniq -c
Dabei passiert folgendens: Der Befehl pdftotext wandelt die fertige PDF-Datei wieder in eine Textdatei ohne Steuerzeichen um. Anschließend wird diese Ausgabe mit Hilfe von gawk zerlegt, sodass jedes Wort in einer einzelnen Zeile steht. Diese Liste wird mit sort sortiert und an uniq übergeben, das daraus eine Liste mit der Häufigkeit des Vorkommens erzeugt.