チップス

pdfファイルからテキストを抽出する pdftotextの使い方


PDFファイルからテキストを抽出するには、pdftotextコマンドを使います。
 

$ pdftotext input.pdf out.txt
オプション 内容
-f 開始ページ 抽出開始ページを指定
-l 終了ページ 抽出終了ページを指定
-opw パスワード オーナーパスワード(文書の印刷や編集などを制限するためのパスワード)を指定
-upw パスワード ユーザーパスワード(文書を開くためのパスワード)を指定
-layout オリジナルに近いレイアウトでテキストを出力
-htmlmeta HTML形式で出力
-enc エンコード名 テキストファイルの文字コードを指定(UTF-8/EUC/Shift-JISなど)
-eol 行末の形式 end-of-lineの形式を指定(unix/dos/mac)

参考URL
pdftotextをubuntuで使ってみる


   チップス