テキスト抽出支援ツールは、PDFファイルからテキスト抽出を行う設定を作成するための支援ツールです。
eDocArrangement2のメイン画面のツールメニューからテキスト抽出支援ツールを作成(HTMLを出力)することができます。
HTMLファイルになっていますのでブラウザーで開いて使用します。
画面は以下のようになっており、PDFのイメージ画像と検出可能なテキストが赤枠で表示されます。
以下の動画は売上日と取引先コードを抽出してカスタムプロパティに設定するマクロを生成するまでの手順です。
以下のマクロが生成されます。
#PDFファイルをオープン {%PDF_OPEN({%GET(FullPathFileName)})} # 座標領域を設定 {%SET_U(領域指定,Page,All,売上日,X,17.03)} {%SET_U(領域指定,Page,All,売上日,Y,27.26)} {%SET_U(領域指定,Page,All,売上日,BottomRightX,53.4)} {%SET_U(領域指定,Page,All,売上日,BottomRightY,34.42)} {%SET_U(領域指定,Page,All,取引先コード,X,83.39)} {%SET_U(領域指定,Page,All,取引先コード,Y,27.84)} {%SET_U(領域指定,Page,All,取引先コード,BottomRightX,95)} {%SET_U(領域指定,Page,All,取引先コード,BottomRightY,33.65)} # PDFテキスト抽出 {%PDF_EXTRACT_TEXT(1,抽出データ,領域指定)} # テキストを取得 {%SET_U(属性,売上日,{%JOIN(抽出データ,Pages,1,Rect,売上日,Texts, )})} {%PDF_SET_DOCUMENT_ATTRIBUTE(売上日,{%GET_U(属性,売上日)})} {%SET_U(属性,取引先コード,{%JOIN(抽出データ,Pages,1,Rect,取引先コード,Texts, )})} {%PDF_SET_DOCUMENT_ATTRIBUTE(取引先コード,{%GET_U(属性,取引先コード)})} #クローズ {%PDF_CLOSE()}
この帳票では売上日が「売上日:2025年5月1日」のようになっていますので、マクロを以下のように「売上日:」の後ろの文字を売上日にセットするように変更します。
# テキストを取得 {%SET_U(属性,売上日,{%JOIN(抽出データ,Pages,1,Rect,売上日,Texts, )})} {%PDF_SET_DOCUMENT_ATTRIBUTE(売上日,{%GET_U(属性,売上日)})} ↓ # テキストを取得 {%SET_U(属性,売上日,{%JOIN(抽出データ,Pages,1,Rect,売上日,Texts, )})} #売上日:の後の値を取得 {%SET_U(属性,売上日,{%REGEX_CAPTURE(売上日:(.+),{%GET_U(属性,売上日)})})} {%PDF_SET_DOCUMENT_ATTRIBUTE(売上日,{%GET_U(属性,売上日)})}
編集したマクロをeDocArrangement2のマクロ実行の処理にペーストするだだけでテキスト抽出と属性設定の処理が作成できます。