チップス

pdfファイルからテキストを抽出する pdftotextの使い方

PDFファイルからテキストを抽出するには、pdftotextコマンドを使います。
　

$ pdftotext input.pdf out.txt

オプション	内容
-f 開始ページ	抽出開始ページを指定
-l 終了ページ	抽出終了ページを指定
-opw パスワード	オーナーパスワード（文書の印刷や編集などを制限するためのパスワード）を指定
-upw パスワード	ユーザーパスワード（文書を開くためのパスワード）を指定
-layout	オリジナルに近いレイアウトでテキストを出力
-htmlmeta	HTML形式で出力
-enc エンコード名	テキストファイルの文字コードを指定（UTF-8／EUC／Shift-JISなど）
-eol 行末の形式	end-of-lineの形式を指定（unix／dos／mac)

Linux実践講座