conversion de fichiers OOXML de Microsoft en texte pur
Cet outil essaie de créer des fichiers équivalents, en texte pur, à des
documents .docx de Microsoft, en conservant quelques informations de
formatage et du document (que la conversion de texte de MS oublie), avec la
conversion de caractères adéquate (ASCII ou UTF-8) pour une bonne
expérience textuelle. C’est une solution indépendante de la plateforme,
composée de Perl (le cœur) et de scripts (l’enveloppe) d’interpréteur Unix
et Windows, ainsi qu’un fichier de configuration pour contrôler l’apparence
du texte produit pour une mise en page agréable. Il peut très aisément être
utilisé pour construire un service de conversion de document docx basé sur
le web. Quelques fichiers Makefile et batch de Windows sont fournis pour
une installation facile des scripts. Avec des extracteurs d’archive tel
CakeCmd pouvant traiter des archives Zip corrompues, cet outil peut
extraire le texte de documents corrompus dans beaucoup de cas, alors que
MS Word n’arrive même pas à les ouvrir.