チップス
pdfファイルからテキストを抽出する pdftotextの使い方
PDFファイルからテキストを抽出するには、pdftotextコマンドを使います。
$ pdftotext input.pdf out.txt
| オプション | 内容 |
|---|---|
| -f 開始ページ | 抽出開始ページを指定 |
| -l 終了ページ | 抽出終了ページを指定 |
| -opw パスワード | オーナーパスワード(文書の印刷や編集などを制限するためのパスワード)を指定 |
| -upw パスワード | ユーザーパスワード(文書を開くためのパスワード)を指定 |
| -layout | オリジナルに近いレイアウトでテキストを出力 |
| -htmlmeta | HTML形式で出力 |
| -enc エンコード名 | テキストファイルの文字コードを指定(UTF-8/EUC/Shift-JISなど) |
| -eol 行末の形式 | end-of-lineの形式を指定(unix/dos/mac) |
参考URL
pdftotextをubuntuで使ってみる

