Trouver des fichiers dupliqués

Répondre
Partager Rechercher
La question est simple. J'ai 6 DD avec 6 backup "presque identiques". Autrement dit, j'ai un gros probleme. L'arborescendce des repertoires n'est pas identique, et les dates des fichiers sont "fausses"

Il y a un software (freeware prefere) qui sait retrouver les duplicats et automatiser un merge ?
J'ai jamais eu à le faire mais je vais suivre le thread avec interêt, les moteurs de recherche proposent pas mal de petits softs permettant de faire ça .

Vu que l'arborescence et la date sont "différents", c'est quoi ton critère de comparaison du coup? (nom de fichier, taille, checksum?)
Sur les softs de dedup intégrés dans les soft de backup c'est le MD5 du fichier qui fait foi (enfin Nom+MD5) pas l'arbo, parce que c'est souvent a cause de l'arbo que tu as de la duplication.

Il y a d'ailleurs un module de dedup qui marche très bien dans Windows Server 2012 et +
Sous Linux, c'est plutot pris en charge par les FileSystems (Zfs, Btrfs, Sdfs....)
Avec Rsync ?

Mon idée est que tu te trouves un espace suffisant pour y mettre le résultat du merge (par exemple un dossier "merged").

Tu fais 6 fois:
Code:
rsync -a /chemin/vers/backup_x /chemin/vers/merged
Avec "backup_x" tes 6 dossiers à réunir.

Ca marcherai ?
Rsync a beaucoup d'options, certaines devraient te permettre d'utiliser un checksum, d'autres le timestamp, etc... Faut fouiller pour trouver son bonheur.
Anti Twin de J.Rosenthal permet de faire rapidement pas mal de chose
- cherche dans 1 dossier ou compare 2 dossiers
- peu être récursif (sous dossiers)
- compare les dossier ou les fichiers
- Filtres possible par wildcard (*.mp3 *.* *.doc ...)
- critère de comparaison : par nom / par contenu = par octet ou contenu image
et prévoit même de faire une comparaison par pourcentage de précision (genre tu as 2 mp3 identiques (même musique) mais l'un possède les itd3 et pas l'autre
- limite ou pas le nombre de doublon (faut effacer la zone de saisie pour cela)

par contre je n'ai pas confiance en l'effacement automatique, je préfères le faire a la main, tant pis pour le temps passé.
sinon je me doute de l algo utilisé, il est vraiment très rapide comparé a tout ce que j ai pu tester, et il ne m'a jamais retourné d'erreur (faux positif ou faux négatif)

testé sur un échantillon de + de 100.000 fichiers divers
et je n'ai pas vu non plus d'option concernant les dates

Sinon ponctuellement pour des petit échantillon j ai aussi auslogic duplicate finder
mais il ma déjà retourné des faux doublon sur des gros fichiers (>2Go)
De plus la ou antiTwin va prendre 15min auslogic peu mettre +2 heures (pour la recherche uniquement)
Répondre

Connectés sur ce fil

 
1 connecté (0 membre et 1 invité) Afficher la liste détaillée des connectés