ExtractText メソッド

PDF ファイルからテキストフォームを抽出する。

Sub ExtractText(InputFileName As String,
                OutputFileName As String,
                [Password],
                [From],
                [To],
                [PageSeparator],
                [OutputCodePage])

パラメータ

戻り値

なし

注意点

  1. このメソッドは全フォーマット情報を放棄したPDFファイルからテキストを抽出します。
  2. 抽出されたテキストはテキストにインデックスをつける目的のために使用することが出来ます。
  3. ページ番号はゼロ - ベースのインデックスを使用します。つまり、ページ番号は0から始まります。

使用例


Set oProcessor = CreateObject("easyPDF.PDFProcessor.7")

 

'  デフォルトの設定で抽出します。

oProcessor.ExtractText "C:\input1.pdf", "C:\output1.txt"

 

'  入力 PDF のはじめの 5ページを抽出します。

oProcessor.ExtractText "C:\input2.pdf",

                       "C:\output2.txt",_

                       From:=0,

                       To:=4

 

'  すべてのオプションを指定して抽出します。。

oProcessor.ExtractText "C:\input3.pdf",

                       "C:\output3.txt",_

                       Password:="my_password",

                       From:=0,

                       To:=4,

                       PageSeparator:="[MY_PAGE_SEP]",

                       OutputCodePage:=PRC_CP_UTF8