tools/README: Finishing up the repeats commentary.
authorDavid Anderson <davea42@earthlink.net>
Sun, 23 Feb 2014 17:23:41 +0000 (09:23 -0800)
committerDavid Anderson <davea42@earthlink.net>
Sun, 23 Feb 2014 17:23:41 +0000 (09:23 -0800)
dwarf5/tools/README

index bd3b49a..112f667 100644 (file)
@@ -22,7 +22,9 @@ will look for repeated words and short phrases, something
 that can creep in via typos or by accidents of latex use:
 We use several lines to keep the lines short here.
 This is more than a little sloppy and repeats.py
-is not very powerful.
+is not very powerful. But it seems potentially useful.
+   pdftotext -enc Latin1 dwarf5.pdf
+   # Strip out some characters
    sed -e 's/:/ /g' <../latexdoc/dwarf5.txt >junk.txt
    sed -e 's/,/ /g' -e 's/;/ /g' <junk.txt >junk2.txt
    sed -e 's/:/ /g' <junk2.txt >junk3.txt