Linux実践講座

Linux実践講座

コンピュータを便利に使う tips などをメモ

--- 広告 ---
--- 広告 ---

pdfファイルからテキストを抽出する pdftotextの使い方

読了までの目安時間:約 2分

PDFファイルからテキストを抽出するには、pdftotextコマンドを使います。
 

$ pdftotext input.pdf out.txt
オプション 内容
-f 開始ページ 抽出開始ページを指定
-l 終了ページ 抽出終了ページを指定
-opw パスワード オーナーパスワード(文書の印刷や編集などを制限するためのパスワード)を指定
-upw パスワード ユーザーパスワード(文書を開くためのパスワード)を指定
-layout オリジナルに近いレイアウトでテキストを出力
-htmlmeta HTML形式で出力
-enc エンコード名 テキストファイルの文字コードを指定(UTF-8/EUC/Shift-JISなど)
-eol 行末の形式 end-of-lineの形式を指定(unix/dos/mac)

参考URL
pdftotextをubuntuで使ってみる

--- 広告 ---
--- 広告 ---

 

この記事に関連する記事一覧

--- 広告 ---
--- 広告 ---
最近の投稿
 
%d人のブロガーが「いいね」をつけました。