Qu’est-ce que la déduplication des données ?
La déduplication (également appelée factorisation ou stockage d’instance unique) est une technique de stockage de données, consistant à factoriser des séquences de données identiques afin d’économiser l’espace utilisé.
Chaque fichier est découpé en une multitude de tronçons. À chacun de ces tronçons est associé un identifiant unique, ces identifiants étant stockés dans un index. L’objectif de la déduplication est de ne stocker qu’une seule fois un même tronçon. Aussi, une nouvelle occurrence d’un tronçon déjà présent n’est pas à nouveau sauvegardée, mais remplacée par un pointeur vers l’identifiant correspondant.
La déduplication peut être exécutée à la volée pendant l’écriture des données dans le système de stockage et/ou en arrière-plan pour éliminer les doublons après l’écriture des données sur le disque.
Chez Clurk Backup, la déduplication est une technologie sans perte de données, exécutée à la fois à la volée et en arrière-plan pour maximiser les performances
La déduplication est activée par défaut à partir de la V9 et exécutée automatiquement sur tous les volumes et agrégats sans intervention manuelle.
La déduplication a un impact minime sur la performance
Elle s’exécute en arrière-plan, indépendamment de l’application en cours ou de la façon dont on accède aux données (NAS ou SAN).
Les gains de la déduplication sont conservés lorsque les données sont déplacées : lorsqu’elles sont répliquées sur un site de reprise, sauvegardées dans un espace sécurisé ou déplacées entre les installations sur site, un cloud hybride et/ou un cloud public.
Fonctionnement de la déduplication
La déduplication opère au niveau du bloc(paramétrable), ce qui supprime les blocs de données dupliqués.
La déduplication repose sur la technologie des empreintes : des signatures digitales uniques pour tous les blocs de données.
Lorsque les données sont écrites dans le système, le moteur de déduplication à la volée analyse les blocs entrants, crée une empreinte et la stocke dans un magasin de hachage.
Une fois l’empreinte calculée, une recherche est effectuée dans le magasin de hachage. En cas de correspondance d’une empreinte dans le magasin de hachage, le bloc de données correspondant à l’empreinte dupliquée (bloc donneur) est recherché dans la mémoire cache :
S’il est trouvé, une comparaison octet par octet est effectuée entre le bloc de données actuel (bloc receveur) et le bloc donneur pour s’assurer de la correspondance exacte. Lors de cette vérification, le bloc receveur est partagé avec le bloc donneur correspondant sans être réellement écrit sur le disque. Seules les métadonnées sont mises à jour pour suivre les détails du partage.
Avantages de la déduplication Clurk Backup
Dans une infrastructure de postes de travail virtuels (VDI), la déduplication donne aussi de bons résultats, car les données dupliquées entre les postes de travail sont particulièrement nombreuses.
En revanche, la déduplication ne présente pas un grand intérêt pour certaines bases de données relationnelles comme Oracle et SQL, car souvent, chaque enregistrement a une clé unique qui empêche le moteur de déduplication d’identifier les doublons.
Configuration de la déduplication
La déduplication est automatiquement activée sur tous les nouveaux volumes. Mais elle peut être désactivé sur notre interface.
Une fois la déduplication activée, elle est automatiquement appliquée à la volée et en arrière-plan afin de maximiser les économies.