UbuntuでPDFからテキスト抽出する方法

★画像アップ先の不調により、過去のエントリーで画像が見られないものが多数あります。もし画像の見たいものがありましたらご連絡いただければ復活するようにします。

PDFから文章を取り出したい場合、通常ビューアーで開いて必要な部分をコピペする方法がお手軽ですが、ファイルによっては細切れに改行が入ったり変な部分が選択されたり不便なことがあります。また、数カ所程度箇所ならいいけど、全体的に取り出したい場合などかなり面倒だと思います。そこでお手軽に抽出する方法がわかりましたのでご紹介します。



●抽出前のPDFファイル(例):moebuntuスライド(PDF)
PDFからテキスト抽出





●抽出したTXTファイル
PDFからテキスト抽出



下準備(不要かもしれません)


「poppler-utils」というのがインストールされていれば以下の作業は必要ありません。わたしの環境Ubuntu 16.04(実機)ではインストール済みでした。デフォルトで入っている可能性があります。



「poppler-utils」のインストール


端末(Ctrl+Alt+T)を開いて以下を入力適用すればOKです。($は含まない)


$ sudo apt-get install poppler-utils

抽出の仕方


操作は端末上で行います。基本的な使い方は簡単です。抽出したいPDFファイルをホームに置いて(もしくはPDFファイルのあるディレクトリを端末で開いて)以下の操作でOKです。


$ pdftotext ファイル名.pdf ファイル名.txt

その他、オプション設定で抽出するページを指定したり、パスワード付きのPDFから抽出するなどもできます。詳しくはPDFファイルからテキストを抽出するにはubuntu で pdfファイルからテキスト抽出Add StarPDFを他のファイル形式に簡単に変換できるpoppler-utilsを参考にしてみてください。


関連記事

テーマ : Linux
ジャンル : コンピュータ

コメントの投稿

非公開コメント

プロフィール

TOY

Author:TOY
萌え萌えmoebuntu
ようこそ!
moebuntuサイト
moebuntu wiki
お気軽にコメントください。

Auto-Translate
最新記事
最新コメント
tweet
萌え萌えAD




月別アーカイブ
03  02  01  12  11  10  09  08  07  06  05  04  03  02  01  12  11  10  09  08  07  06  05  04  03  02  01  12  11  10  09  08  07  06  05  04  03  02  01  12  11  10  09  08  07  06  05  04  03  02  01  12  11  10  09  08  07  06  05  04  03  02  01  12  11  10  09  08  07  06  05  04  03  02  01  12  11  10  09  08  07  06  05  04  03  02  01 
カテゴリークラウド
RSSリンクの表示
リンク
QRコード
QRコード
最新トラックバック