PDFは、企業文書によく用いられるファイル形式です。ペーパーレス化でき、共有もしやすいため、多くの企業で使用されています。文書はただPDF化するだけではなく、文字認識処理(OCR処理)を行うことで、さらに使いやすくすることができます。
では、PDFの文字認識処理を使って、どのようなことができるのでしょうか。PDFと文字認識の関係やメリット、PDFの文字認識のやり方、文字認識処理したPDFの活用方法を紹介します。
PDFは目視の状態を維持できるファイル形式です。Portable Document Format(ポータブル・ドキュメント・フォーマット)の略で、印刷物と見た目を変えずに文書を電子化したものがPDFです。
文書をPDFにすると、文字・図形・表・レイアウト・デザインを崩すことなくそのまま電子ファイルとして扱うことができるようになります。紙の文書を社内で共有する場合、文書そのものを回覧したり、出社して文書を直接確認したりしなければなりません。しかし、PDFならばメールに添付したりクラウド上に保存したりすることが可能になり、離れた場所でも容易に共有できるようになります。
PDFにおける文字認識とは、PDFに記載してある内容のテキスト化を意味します。紙の文書からPDFを作成する場合、取り込まれた文書はそのままでは画像データですが、OCR技術を利用することでテキストとして認識可能です。OCRは「Optical Character Recognition(またはReader)」の略で、光学的文字認識と訳されています。スキャナーで書類をスキャンする際に文字を字形(画像)ではなく、テキストとして読み込む認識方法がOCRと呼ばれます。
PDFの文字認識をOCRで行うメリットには次の点が挙げられます。
検索が可能になる
PDFの読込・取込をOCRで行うと、PDF文書内で検索ができるようになります。OCRでの読込・取込でない場合、認識は字形(画像)で行われるため、文字であっても字形が絵と同じように認識されます。OCRで読込・取込を行った場合は、内容がテキスト化されます。
例えば「PDF」という文字が書かれた文書を読込・取込すると、OCRでない場合は字形が認識されるだけですが、OCRの場合は「P」「D」「F」というアルファベットの中の3文字と認識されます。それによって「PDFという言葉」や「Pを含む言葉」などと文字検索することが可能になり、必要な文言をすぐに探し出すことができます。
「ある情報を探しているが、いくつかある文書のどこに情報が記載されているか分からない」といったケースで有効で、ナレッジ活用において非常に役立ちます。また、文書整理にかける労力・時間を大幅に削減することができるため、文書管理業務の効率化にも大きく貢献します。
編集や修正が可能となる
OCRで読込・取込を行った文書は編集や修正も可能です。PDF編集が可能なソフトウェアを用いて、文書を直接編集・修正をすることができます。
OCRで読込・取込していない文書に編集や修正を加える場合は一から作り直さなければならず、元の文書を見ながらの入力作業が必要になります。労力と時間もかかるうえ、入力ミスも起こる可能性があります。OCR読込・取込の場合は編集したい部分や修正箇所にのみ手を加えればよく、スピーディに間違いのない文書を作成することができます。
また、テキストのコピー&ペーストもできるようにもなり、特定の箇所だけ引用したり、同じような文書を新たに作成したりする場合に、効率化が図れます。
他のソフトウェアとの連携が可能になる
OCRで読込・取込を行ったPDFは、他のソフトウェアとの連携も可能です。WindowsのWordやExcelに取り込んで、そのままWordファイルやExcelファイルとして利用することができるようになります。読込・取込に用いたPDF編集ソフトウェア・アプリによってはPowerPointや画像、HTMLなど多種類の形式で出力させることができ、さらに多くの他のソフトウェアとの連携が可能です。
読み上げが可能になる
OCR取込・読込によりテキスト化されたPDFは、読み上げ機能が利用できるようになります。通勤などの移動中、あるいは他の作業をしながらでも、読み上げによってPDF文書の内容確認が可能です。忙しいとき、時間を有効活用したいときに利用することで、生産性の向上を図ることができます。
例えば、次の方法でPDFの文字認識をOCRで行うことができます。
Googleドライブを用いる
GoogleドライブにはOCR機能がついていて、PDFのテキスト化に利用することができます。容量を超えなければ複数ページでも読込・取込が可能です。ただし、パソコンからGoogleドライブにアクセスする必要があり、AndroidやiPhone・iPadからは行えません。使用方法は以下のとおりです。
1.テキスト化したいPDFをGoogleドライブにアップロードする
2.マイドライブでアップロードしたPDFにカーソルを合わせ、「アプリで開く」を選択する
3.「Googleドキュメント」を選択して、開く
GoogleドライブでPDFをテキスト化する場合には次の点に注意すると正確に読込・取込することができます。
・ファイルサイズは2MB以下にする
・解像度はテキストの高さを10ピクセル以上にする
・向きを正しい向きにし、違う場合は回転させて向きを修正してからGoogleドライブにアップロードする
・フォントはArialやTimes New Romanのような一般的なフォントが望ましい
ソフトウェアやアプリを用いる
PDF編集に用いるソフトウェアやアプリでも、PDFの読込・取込をOCRで行うことができます。無料のPDF編集ソフトウェア・アプリはOCR機能がない場合もあり、全般として有料版のほうが機能性は高いです。OCR機能以外でも、ダウンロード不要でインターネット環境下にあれば使用可能なもの、多言語に対応しているもの、テキストの一部や画像を抽出できるものなど、さまざまなソフトウェア・アプリがあります。無料版・有料版を問わず、企業で使用する際は業務に耐えうるかどうかを判断し、目的を達成できるものを選択していきましょう。
おすすめは、iPhoneアプリの「Adobe Scan」です。気軽にスマホで文書の内容をキャプチャしPDFに変換できます。ホワイトボードに書かれた文書でも自動的に文字認識を行うことが可能で、さまざまな用途に活用できるためビジネスでも役立ちます。まずはデモでAdobe Scanを実際に使ってみましょう。
Adobe Scan - アドビ株式会社
PDFの取込・読込をOCRで行う際は、次の点に注意する必要があります。
向きなど、置き方に注意する
PDFを正確に取込・読込を行うには、とくにスキャナーの置き方に注意しなければなりません。曲がったりズレてしまったりしないよう、正しい向きを確認して丁寧に原稿をセットする必要があります。
スキャナーの解像度は高く設定しておく
スキャナーの解像度は高めに設定しておくと、正確な取込・読込が可能になります。基本的にスキャナーの解像度は自動で設定されますが、解像度の値を200~300dpiと高く設定しておくと文字認識の精度を向上させることができます。
白黒で読み取る
色の付いた文字は、正確に認識されにくくなっています。文字がカラーの場合でも読み取りの設定は白黒にしておくと、認識精度を上げることができます。
コントラストを調整する
手書きの文字、一部がかすれている文字は、誤って認識されることがよく起こります。このような誤認識されやすいものの場合は、スキャン後にコントラスト調整を行うと、取込・読込の正確性をアップさせることができます。
紙が薄い場合は透けないようにする
紙が薄いと透けてしまい、正確な取込・読込ができません。下に紙などを敷いて透けないようにすると、正確に読込・取込ができるようになります。下に敷く紙は何も書かれていない、きれいなものにしましょう。
文書をPDF化すれば社内の膨大なデータを一括で管理可能となり、保存スペースも不要です。それだけでも大きな効果がありますが、さらにOCRを用いることで検索性の向上によるナレッジ活用や、既存文書の編集や修正が容易になることによる業務効率化などが実現します。また、ほかのソフトとの連携や、読み上げもできるようになり利便性も向上します。今までの煩雑な紙書類からOCRによるデータ化で、ナレッジ活用・業務の効率化改善・生産性の向上を目指しましょう。
Adobe AcrobatではPDF化だけでなくOCR機能も備えています。文字情報とその書式指定をしっかり認識できる強みがあり、正確な読込・取込によるテキスト化が可能です。
詳細はこちらをご覧ください。
Adobe Acrobat 株式会社Too
参考:
PDFや写真のファイルをテキストに変換する|Googleドライブ ヘルプ
ライセンスの見直しの際には、アドビ取り扱い30年以上・経験豊富なスタッフの多いTooにご相談ください。 Tooはアドビ正規販売代理店 最上位のプラチナリセラーです。
法人版限定のディスカウントもあります。
ありがとうございました。
今後も最新情報やTIPSなど配信していきますので、ぜひご覧ください!
記事は2022年9月 1日現在の内容です。