Un fichier Word peut en cacher un autre. Grâce à une astuce autant géniale qu’élémentaire, il est possible de dissimuler n’importe quel document dans un fichier DOCX. Mais aussi de l’en extraire en quelques clics. On vous explique comment faire.
Accéder au fichier secret dans un DOCX
Qui aurait cru qu’un simple DOCX cache une structure digne d’un mini-serveur, prête à vous balancer plus de secrets que huit mois de télétravail sous NDA ?
Étape 1 : Renommer l’extension .docx en .zip
La première étape est aussi triviale qu'essentielle : il s’agit de prendre ce fichier .docx prétendument anodin et de lui arracher son camouflage. Sous Windows, Mac ou Linux, le .docx n’est rien d’autre qu’une archive compressée – un zip déguisé, ni plus ni moins.
- Afficher les extensions (Windows) : Rendez-vous dans l’explorateur, onglet « Affichage », cochez la case « Extensions de noms de fichiers ». Si vous sautez cette étape, bonne chance pour ne pas corrompre le fichier !
- Renommez l’extension : Clic droit > Renommer > Remplacez
.docx
par.zip
(validez et ignorez le message d’avertissement si besoin). - Mac/Linux : Même punition. Utilisez Finder ou la commande
mv monfichier.docx monfichier.zip
. Attention aux extensions cachées par défaut – c’est la base mais on zappe souvent.
Attention : Derrière chaque extension .docx peut se cacher une arborescence complète, parfois remplie d’artefacts historiques ou sensibles.
Étape 2 : Ouvrir l’archive avec un outil adapté
Dès lors que votre fichier porte l’extension .zip, les outils classiques déploient leur arsenal. WinRAR, WinZip ou même l’explorateur natif de Windows déroulent la hiérarchie interne du fichier sans broncher.
- Avec WinRAR/WinZip, ouvrez simplement le fichier renommé. Naviguez dans la structure comme si c’était une archive banale.
- Sous Windows 10+, le double-clic ouvre direct l’arborescence dans l’explorateur natif.
- Sur Mac, The Unarchiver fait très bien le ménage (mieux que les utilitaires intégrés… triste réalité !).
Localiser le dossier /word/media ou /customXml
C’est ici que beaucoup s’arrêtent trop vite ! Deux emplacements sont critiques pour tout analyste digne de ce nom :
Checklist à ne jamais négliger :
- /word/media : Toutes les images y sont stockées (logo d’entreprise oublié ? Graphique confidentiel planqué ?) ; fouillez chaque recoin.
- Objets OLE : Fichiers binaires embarqués — souvent négligés par automatisme.
- /customXml/ : Contient des jeux de données XML personnalisés ; parfois des clés API planquées (!!), des fragments sensibles non supprimés lors du dernier nettoyage…
Ne jamais se fier à un DOCX « vide » sans avoir farfouillé ces répertoires. Certains se croient malins en pensant avoir nettoyé leur doc – ils oublient simplement que leur passé digital n’a pas disparu, il a juste été compacté.
Pourquoi un DOCX est une archive ZIP ?
Oublier que DOCX est une archive ZIP, c’est comme ignorer que votre laptop tourne sur un OS — amateurisme pur. Ce format n’est pas le fruit du hasard ou d’un délire d’ingénieur Microsoft : c’est une construction chirurgicale, destinée à combiner puissance, portabilité et sécurité… En théorie du moins.
Comprendre la structure XML et les dossiers internes
Un fichier DOCX ne contient PAS qu’un texte bêtement sauvegardé. Il embarque une arborescence XML ultra-structurée, répartie dans différents dossiers précis :
Dossier/Fichier | Contenu |
---|---|
[Content_Types].xml |
Décrit le type de chaque contenu (texte, image, OLE…) ; obligatoire pour tout parseur sérieux |
/word |
Texte du document principal (document.xml ), styles (styles.xml ), polices intégrées, médias |
/docProps |
Métadonnées sournoises : auteur original, dates, révisions ignorées par 90% des utilisateurs |
/customXml |
Données XML personnalisées (jamais nettoyées comme il faudrait) |
/_rels |
Relations et liens internes (vers des médias externes, scripts, macros…) |
Vous pensiez qu’un .docx = un fichier ? Faux. C’est littéralement un mini-système de fichiers encapsulé en ZIP.
Compression et conservation des médias
Ici on touche du doigt l’avantage magistral de DOCX : la compression ZIP. Contrairement aux vieux formats Word binaires (.doc), DOCX intègre directement images, graphes et OLE dans l’archive…
- Images PNG/JPEG stockées telles quelles (pas de recompression destructrice par défaut !)
- Fichiers audio/vidéo intégrés sans altération ni perte de qualité
- Tableaux/objets Excel encapsulés dans leurs structures natives XML ou binaire
Avantages clés :
- Gain d’espace disque massif (fichiers jusqu’à 10x plus petits qu’en .doc… sur certains corpus réels !)
- Ouverture et sauvegarde instantanée (ZIP rapide à décompresser)
- Préservation totale des médias originaux—aucune modification parasite imposée par Word lors de l’insertion !
Raisons pour lesquelles Microsoft a choisi ce format
Retour en 2007 : la suite Office bascule vers Open XML. Pourquoi cette révolution ? Plusieurs raisons gênantes expliquent le choix du format ZIP/XML :
- Standardisation forcée par les institutions publiques (interopérabilité, auditabilité)
- Fini le mystère des formats binaires propriétaire : structure transparente pour les développeurs ET les attaquants…
- Possibilité d’intégrer facilement textes enrichis + médias + scripts + données annexes ; tout ça dans un seul conteneur ouvert.
- Facilité d’extraction ou de réparation manuelle en cas de corruption—un .docx éclaté reste lisible via simple unzippage.
« Le diable est toujours dans les métadonnées, même dans un .docx innocent. »
Étrangement peu évoqué : la sécurité n’a jamais été la motivation principale de ce changement... Résultat : on se retrouve aujourd’hui avec des documents qui peuvent contenir bien plus que ce qui saute aux yeux – pile ce qui fait cauchemarder tout parano NTIC digne de ce nom.
Astuces avancées pour explorer les éléments invisibles
Ignorer la couche invisible d’un DOCX, c’est comme louer un appartement sans jamais regarder dans les placards : inconscient et amateur. Passons en revue les zones qui font grimacer n’importe quel analyste sérieux — là où le document révèle ses vraies failles, même aux utilisateurs qui pensent tout contrôler.
Étape 1 : Examiner les métadonnées dans /docProps
Oubliez l’inspection superficielle des propriétés par Word : creuser dans /docProps
permet de révéler des informations que même l’utilisateur avancé omet de masquer. Les fichiers critiques sont core.xml
et app.xml
. Ils renferment souvent les traces d’un passé embarrassant, sauvegardées par Word à chaque modification, copie ou enregistrement automatique.
- Champs clés à extraire :
- creator : Auteur initial (souvent un nom complet ou un login Active Directory)
- lastModifiedBy : Dernier éditeur réel du doc (même après anonymisation à la va-vite)
- revision : Compteur d’enregistrements — idéal pour détecter une manipulation excessive ou un faux document “vierge”
Analysez ces métadonnées en ouvrant core.xml/app.xml, pas via l’interface Word. Résultat : bien souvent l’auteur croit être anonyme alors que son identité traîne dans le ZIP.
Anecdote véridique : Lors d’un audit RGPD pour une PME industrielle, des noms d’employés licenciés ont été retrouvés dans le champ lastModifiedBy
d’un rapport technique transmis à des clients. Effet garanti lors de la restitution !
Étape 2 : Interroger les Custom XML Parts
La plupart des utilisateurs ne savent même pas que /customXml
existe. Pire, ils ignorent que ce dossier stocke bien plus que des données accessoires : il peut contenir des fragments métiers, des identifiants uniques et parfois des données sensibles non purgées après usage.
- À inspecter systématiquement :
- ID : Identifiant de chaque partie XML ; traçable côté développement ou génération automatique
- namespaces : Espaces de noms utilisés – révélateurs d’applications tierces ou de systèmes métier intégrés (ERP, CRM…)
- contenus d’éléments : Valeurs stockées (parfois clefs API temporaires ou jetons OAuth oubliés en prod)
Parcourir ces XML avec un simple éditeur suffit. N’attendez pas une « alerte » par Word : ce moteur n’est là que pour afficher joliment… pas pour auditer finement !
Étape 3 : Rechercher les liens et références brisées
Pièce maîtresse de toute investigation sérieuse : le scan méticuleux des fichiers de relations /word/_rels
. Bien trop souvent, ces fichiers .rels gardent trace de liens vers des ressources externes supprimées ou déplacées. C’est ici qu’éclatent au grand jour les négligences techniques — voire pire.
Checklist inratable :
- Vérifier tous les fichiers .rels
(notamment /word/_rels/document.xml.rels
, /word/_rels/settings.xml.rels
)
- Scruter chaque URL externe insérée (images distantes, scripts embarqués)… même si elles semblent inoffensives !
- Repérer toute URI invalide ou pointant vers une ressource supprimée (indices majeurs lors d’audits légaux ou forensics)
Tout lien brisé, c’est un risque latent. En mode parano pro : on supprime ou on documente—on ne laisse jamais traîner au hasard !
Sécurité et bonnes pratiques pour manipuler un DOCX
Rater les fondamentaux de la sécurité sur les DOCX, c’est comme laisser son badge d’accès sur un banc public. Pourtant, même chez les pros, la négligence se faufile partout…

Étape 1 : Vérifier l’intégrité avant l’extraction
Avant toute opération, un fichier DOCX doit être authentifié. Oui, même pour un simple CV ou un rapport d’audit — tout fichier peut être altéré en transit ou bricolé à l’insu de l’utilisateur.
- Calculer le SHA256 :
- Sous Linux/Mac :
sha256sum monfichier.docx
- Sous Windows : utilisez PowerShell avec
Get-FileHash monfichier.docx -Algorithm SHA256
- Sous Linux/Mac :
- Comparez le hash obtenu avec la référence officielle (si dispo). N’ayez aucune confiance si ça ne matche pas. Point barre.
- Cette étape est systématiquement oubliée dans 90% des procédures internes – et c’est là que commencent vraiment les ennuis.
Étape 2 : Scanner les fichiers extraits pour détecter des malwares
Dès qu’un fichier sort de son archive ZIP-DOCX, il devient une cible potentielle : scripts, macros, balises XML suspects… chaque sous-dossier cache ses propres risques.
- En ligne de commande (CLI) :
- Utilisez ClamAV (
clamscan -r repertoire/extraite/
) pour un scan rapide et exhaustif du répertoire extrait. - Sur Mac/Linux/Windows, ClamAV reste une référence open source — aucune excuse pour ne pas l’utiliser!
- Utilisez ClamAV (
- Outils GUI :
- Windows Defender (peu fiable… mais bon, c’est déjà ça)
- Malwarebytes, Kaspersky ou Bitdefender pour les plus paranoïaques encore réveillés.
- Ne jamais zapper cette étape : même une macro "dormante" ou une balise suspecte dans un XML peut déployer du code à retardement quand Word rouvre le document. Sérieusement : il faut scanner tout ce qui sort d’un .docx modifié.
Étape 3 : Réenregistrer et nettoyer les métadonnées
Après analyse, on n’envoie jamais un fichier sans désinfection complète. Les métadonnées sont la ruine de toute confidentialité prétendue ; elles doivent être irradiées avant toute diffusion externe.
- Étapes pour purger efficacement :
- Ouvrez le fichier avec Word.
- Allez dans « Fichier » > « Informations » > « Propriétés du document » > « Supprimer les informations personnelles dans ce document ».
- Enregistrez sous un nouveau nom (jamais par-dessus l’original !).
- Pour ceux qui croient que "c’est automatisé": testez donc manuellement via extraction ZIP après réenregistrement… Surprise fréquente: Word oublie parfois de tout effacer — classique !
- Recommencez jusqu’à obtenir un ZIP propre sans référence ni vestige compromettant dans
/docProps
,/customXml
ou même dans des noms de fichiers internes !