xdoc2txt

文書内容を検索するのに専用のソフトなどをいれないと内容の検索などができません。

xdoc2txtはコマンドなどでさまざまな文書内の検索用語を検索することができます。

概要

  • xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出 する汎用テキストコンバータであり、Windowsのコマンドラインで動作します。
  • xdoc2txtは各種文書の構造を直接解析しているため、単独で変換できます。WORDや Acrobatなど、作成元のアプリケーションをインストールする必要はありません。
  • 高速に動作するので、各種全文検索エンジンのフィルタに最適です。
  • ワープロ文書の種類は、拡張子から判別します。次の拡張子のファイルに対応してい ます。
.rtfリッチテキスト
.docxMicrosoft WORD 2007/2010/2013(OOXML)
.xlsxMicrosoft Excel 2007/2010/2013(OOXML)
.pptxMicrosoft PowerPoint 2007/2010/2013(OOXML)
.docMicrosoft WORD ver5.0/95/97/2000/XP/2003
.xlsMicrosoft Excel ver5.0/95/97/2000/XP/2003
.pptMicrosoft PowerPoint 97/2000/XP/2003
.sxw/.sxc/.sxi/.sxdOpenOffice.org
.odt/.ods/.odp/.odgOpen Document
.jaw/jtw一太郎 ver5
.jbw/juw一太郎 ver6
.jfw/jvw一太郎 ver7
.jtd/jtt一太郎 ver8/9/10/11/12
.oas/oa2/oa3OASYS/Win
.bun新松/松5/松6
.wj2/wj3/wk3/wk4/123Lotus 123
.wriWindows3.1 Write
.pdfAdobe PDF
.mht/mhtmlWebアーカイブ
.htmlHTML
.emlOutlookExpressのエクスポート形式

動作環境

ver動作環境
ver1.x (MBCS)Windows 95/98/ME/NT4.0/2000/XP/Vista/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit)
ver2.x (Unicode/32bit)Vista SP2/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Windows 10(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit) / Windows Server 2016(64bit) / Windows Server 2019(64bit)
ver2.x (Unicode/64bit)Vista SP2(64bit)/Windows 7(64bit)/Windows 8(64bit)/ Windows 10(64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit) / Windows Server 2016(64bit) / Windows Server 2019(64bit)

コマンドオプション

xdoc2txt.exe [options..] <filename…>
-h ヘルプの表示
-s 出力のエンコードはShiftJIS(デフォルト)
-j 出力のエンコードはJIS
-s 出力のエンコードはEUC
-u 出力のエンコードはUTF-16(LE) ※ Ver2.0以降
-8 出力のエンコードはUTF-8 ※ Ver2.0以降
-i 利用できる場合にはiFilterを優先する。 Ver2.0以降
-f 変換結果をファイルに出力。デフォルトでは標準出力に出力
-p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効)
-r= HTML文書のルビの変換
-r=0 ルビ削除
-r=1 ()
-r=2 《》青空文庫形式
-o= その他のオプション
-o=0 PDFで — ? — の形式のページ番号を表示しない
-o=1 PDFで改行を削除(縦書きで1字毎に改行される場合に使用)
-g=# PDFの字間調整オプション(省略値は95)
# は0以上の百分率(60%の場合、-g=60と指定)
字間が、文字高*(#/100) 以上開くと、空いているとみなして空白を出力
-g=0 字間調整をしない
-g=60 文字高の60%以上開くと、字間が空いているとみなす
-v バージョン番号表示
-x EXCEL2007で存在するセルのみ表示(xdoc2txt 1.33以降)
-z=# 入力ファイルの最大サイズ(byte) 初期値は256MB
-z=512000000 入力ファイルサイズの上限を512MBにする
-z=0 無制限。ファイルサイズチェックを行わない。
-d <ディレクトリ> 出力先ディレクトリの指定

<filename> 変換元のファイル名。ワイルドカード文字(* ?)が使用可。
※空白を含むファイル名の場合、””で囲ってください。


※以下のオプションは、Ver2.0から廃止されました。
-n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要)
-c PDFキャッシュ on(デフォルトはoff)

•次の例は、MS-Word文書の sample.doc に含まれるテキストを標準出力に書き出しま す。

xdoc2txt sample.doc

次のように出力先をリダイレクトすることで、ファイルに保存することもでき ます。

xdoc2txt sample.doc > sample.txt

-f オプションを付けると、出力先をファイルに変更できます。拡張子は自動的に.txt  になります。

xdoc2txt -f sample.doc sample.xls

ワイルドカード * ? が使用できるため、複数のファイルを一括してテキスト化するこ とが出来ます。

xdoc2txt -f *.xls

•パスワードで保護されたWORD/EXCEL/PowerPoint/一太郎は表示できません。
•原則としてファイル内に格納されたテキストの並び順に出力しますので、元のアプ リケーションの表示の順序と異なることがあります。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です