Docx形式の解析

会社のPCがWindowsVistaになって、Officeも2007になりました。
さてここで問題です、Office 2007では.docx という拡張子でWORDファイルが作成されます。
そのままでは、未知の形式でインデックス化がつらいので、1分ぐらい解析してみました。

先頭が PKだったので、ファイル自体がzipで圧縮されている。
中身のファイルは以下のとおり。

_rels/.rels
docProps/app.xml アプリケーション情報 AppVersion,SharedDoc,Paragraphsほか
docProps/core.xml プロパティー情報 creator,lastModifiedBy,revision,created,modified
word/_rels/document.xml.rels
word/thema/theme1.xml
word/document.xml 本文
word/fontTable.xml 使用しているフォント
word/settings.xml
word/styles.xml
word/webSettings.xml
[Content_Type].xml

本文抜き出しや、プロパティー情報が簡単に抜き出せるようになった。
あらゆるデータが.xmlで表記されるようになっていた。

フォレンジック的には、.docx .xlsx .pptxのファイルをzipファイルで扱って、中身のdocument.xmlにあたる部分やcore.xmlをテキスト解析したらよい。

サーチエンジンへの組み込みもかなり簡単にできそうだ。