チップス
pdfファイルからテキストを抽出する pdftotextの使い方
PDFファイルからテキストを抽出するには、pdftotextコマンドを使います。
$ pdftotext input.pdf out.txt
オプション | 内容 |
---|---|
-f 開始ページ | 抽出開始ページを指定 |
-l 終了ページ | 抽出終了ページを指定 |
-opw パスワード | オーナーパスワード(文書の印刷や編集などを制限するためのパスワード)を指定 |
-upw パスワード | ユーザーパスワード(文書を開くためのパスワード)を指定 |
-layout | オリジナルに近いレイアウトでテキストを出力 |
-htmlmeta | HTML形式で出力 |
-enc エンコード名 | テキストファイルの文字コードを指定(UTF-8/EUC/Shift-JISなど) |
-eol 行末の形式 | end-of-lineの形式を指定(unix/dos/mac) |
参考URL
pdftotextをubuntuで使ってみる