converte arquivos OOXML da Microsoft para texto puro
Esta ferramenta tenta gerar arquivos de texto puro a partir de
documentos .docx da Microsoft, preservando alguma formatação e informações do
documento (as quais a conversão de texto da MS ignora) juntamente com conversões
apropriadas de caracteres para uma boa experiência de texto (ascii ou utf-8).
É uma solução independente de plataforma que consiste em Perl (núcleo) e scripts
shell Unix/Windows (envoltório), e um arquivo de configuração para
controlar a aparência do texto de saída de forma adequada. Pode ser usado muito
convenientemente para construir uma conversão de documentos docx baseada em
serviço web. Alguns arquivos Makefiles e arquivos batch do Windows são
fornecidos para facilitar a instalação dos scripts. Com descompactadores como o
CakeCmd, que pode lidar com arquivamentos Zip corrompidos, esta ferramenta pode,
em muitos casos, extrair texto de documentos docx corrompidos, os quais o MS Word
não consegue nem abri-los.