香川県のゲーム依存症対策パブリックコメントのPDFからテキストを抜き出してみる実験プログラムです。 https://drive.google.com/drive/folders/1zeGA2tcJacWvbYNrFJkOG75AoMyVS3Kd
※GoogleドライブからZip形式でダウンロードできますが、解凍ソフト次第でファイル名が文字化けします。Windows10ではOS付属の解凍方法では文字化けしませんでした。
当該PDFはスキャナで取り込まれており、画像として作成されています。
ここではオープンソースあるいは安価なOCR機能を用いて当該、画像からテキストが抽出できるか実験します。
以下のディレクトリ構成で実行してください。
フォルダ構成
data PDFを格納するディレクトリ
image PDFから取得した画像を格納するディレクトリ