ANALYSE
Sommaire Infrastructure 
La chasse aux doublons gagne la sauvegarde et l'archivage
Les solutions de détection et d'élimination automatique des doublons répondent aux besoins de consolidation d'informations hétérogènes et non structurées des entreprises. Des outils destinés aux grosses volumétries.   (11/01/2007)
  En savoir plus
 7 conseils pour optimiser son espace de stockage
Dossier Exploitation informatique
Technologie relativement récente en matière de stockage et d'archivage, le dédoublonnage (ou déduplication) consiste à passer en revue ses données pour limiter l'information redondante au sein du système d'information. Déjà très pratiqué par les équipes projets au niveau des applications ou de la base de données, la technologie voit désormais des solutions capables d'automatiser le dédoublonnage au niveau des disques arriver en force sur le marché.

Deux cas d'écoles favorisent le démarrage d'un tel projet. Premier cas, l'intégration d'un système ou d'une application existante au sein du système d'information, comme par exemple lors de l'acquisition d'une société tierce. L'enjeu est alors de consolider les données clients, par exemple dans une base commune autour d'un standard commun.

"Notre approche va consister d'abord à regarder les formats de données utilisés, les règles de gestion qui y sont appliquées et les domaines de valeur. Une fois cette phase d'étude réalisée, nous recherchons les doublons à l'aide d'un serveur applicatif capable de se connecter à distance sur différents systèmes. Il va extraire les données et les placer dans une base de référence", explique Gauthier Rose, architecte en solutions d'intégration de données chez IBM.

Le serveur d'application applique ici un algorithme de reconnaissance de la donnée, de manière à détecter les fautes de frappe ou les inversions de termes. Il calcule un indicateur de ressemblance entre deux enregistrements pour ne pas trancher trop radicalement, soit tout blanc soit tout noir.

La base de référence ainsi établie pourra au choix être soit un serveur indépendant - auquel seront reliés les systèmes sources pour chaque futur contrôle des doublons a posteriori -, soit servir de nouveau serveur de production si la société souhaite consolider ses machines. Les algorithmes de dédoublonnage peuvent être planifiés à travers un script lancé de nuit, ou dans un mode temps réel, sachant que ce dernier impacte les ressources machines.

L'analyse des doublons prend tout son sens sur de l'information non structurée
Ce cas reste un peu particulier, car le taux de doublon détecté ne dépasse que rarement les 40%. Le dédoublonnage prend tout son intérêt en revanche lorsqu'il est pratiqué au jour le jour sur des opérations de sauvegarde quotidienne, où il obtient des taux d'efficacité de 10 à 20 contre 1.

"En matière de doublons, il existe deux principaux problèmes auxquels sont confrontés les entreprises : la multiplication d'une même information dans un environnement non structuré comme Word, Excel, PowerPoint, Outlook, et la même information embarquée sur des schémas de sauvegarde différents comme l'outil CRM, le poste utilisateur et la base de données", déclare Matthieu Jamet, ingénieur avant-vente chez NetApp.

Pour se lancer dans un premier niveau d'analyse des doublons, une étude des données au niveau des fichiers détectera déjà les noms communs et les contenus similaires, même s'il sera incapable de percevoir une même information issue d'une base de données ou d'un document Word. Lors de la phase de dédoublonnage, les éditeurs proposent plutôt une analyse des blocs de données plutôt que des fichiers.

"Avec une analyse par bloc, le logiciel peut travailler indifféremment sur un NAS, un SAN ou en mode sauvegarde. Le dédoublonnage est une simple fonction qu'on active au niveau de la baie de stockage, et qui agit ensuite de manière automatique. La recherche de doublons se fait de manière indépendante du contexte, à partir d'une base d'empreintes", poursuit Matthieu Jamet.

Cette base d'empreintes est alimentée une première fois à partir des fichiers sauvegardés. Par la suite, toutes les nouvelles données seront comparées à cette base à partir de leur contenu et non de leur forme. Elles vont recevoir un indice de ressemblance. L'administrateur du réseau de stockage reçoit les logs en début de matinée des traitements réalisés la veille au soir, et peut intervenir manuellement s'il souhaite corriger une erreur.

Toutefois, activer le dédoublonnage suppose la mise en place d'un processus assez lourd au niveau de la construction du dictionnaire d'empreintes. "La taille des dictionnaires est limitée aujourd'hui à 4 To, une limite que nous souhaitons repousser prochainement. Il ne faut pas oublier de prévoir l'espace de sauvegarde nécessaire avant la suppression des doublons. Par exemple, l'entreprise aura un taux de remplissage de son serveur à 80% la journée, et qui va retomber à 45% le lendemain matin. Il faut donc prévoir plus d'espace que les données compressées", ajoute Matthieu Jamet.

Et l'archivage sur disques devient pertinent
L'utilisation de ces solutions peut aussi être combinée avec des librairies de bandes virtuelles (lire notre article du 05/07/06) pour minimiser le volume des données archivées sur une baie de disques. Un argument qui replace les solutions de stockage sur disque par rapport aux bandes magnétiques dans le domaine de l'archivage.

Attention également aux données cryptées ou compressées qui peuvent tromper les solutions de dédoublonnage en changeant radicalement l'aspect de blocs de données pourtant similaires au niveau du contenu. De même, il n'est pas toujours pertinent de traquer les doublons à tout prix car des enjeux de temps d'accès aux données ou d'indépendance de sites distants entrent aussi en compte.

  En savoir plus
 7 conseils pour optimiser son espace de stockage
Dossier Exploitation informatique
Sur un sujet pourtant assez nouveau et auquel les clients se montrent encore peu sensibilisés, l'offre s'est en revanche déjà bien construite autour de spécialistes. Falconstor, Adic, NetApp, Symantec, Avamar ou encore Diligent disposent de produits adaptés.

Yves DROTHIER, JDN Solutions Sommaire Infrastructure
 
Accueil | Haut de page
 
 

  Nouvelles offres d'emploi   sur Emploi Center
Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Toutes nos newsletters