Loading AI tools
opération de copie et de sauvegarde de données informatiques De Wikipédia, l'encyclopédie libre
En informatique, la sauvegarde (backup en anglais) est l'opération qui consiste à dupliquer et à mettre en sécurité les données contenues dans un système informatique. Certains utilisateurs ont pour objectif final de sauvegarder leurs fichiers dès le moment de leur enregistrement comme celui qui vient de saisir un texte de loi dans un traitement de texte.
Ce terme est à distinguer de deux notions proches :
La sauvegarde passe forcément par un enregistrement des données, mais pas nécessairement dans un but d'archivage.
Il est recommandé de communiquer aux utilisateurs la procédure élaborée et écrite concernant la stratégie de sauvegarde et d'archive.
D'avertir les utilisateurs concernés quand une sauvegarde échoue.
De faire régulièrement des tests de récupération de données aux moments opportuns afin de pallier un éventuel problème lors d'une récupération de données souhaitée par un utilisateur.
Les copies de sûreté sont utiles principalement à deux choses :
La technique la plus fréquente est la recopie des données sur un support indépendant du système initial (ordinateur local, serveur, etc.).
L'opération inverse qui consiste à réutiliser des données sauvegardées s'appelle une restauration[1].
Le choix d'une technique de sauvegarde nécessite de prendre en compte :
Intervient également la possibilité de sélectionner les données à sauvegarder. Enfin pour les grands systèmes de sauvegarde, il faut tenir compte de critères physiques : volume physique des supports de stockage, poids, sensibilité à la température, à l'humidité, à la poussière, à la lumière.
Initialement définie par le photographe américain Peter Krogh pour la sauvegarde de ses photos, elle définie :
Aux précédentes règles peut s'ajouter, notamment à notre époque des rançongiciels :
On distingue la sauvegarde d'un poste individuel et la sauvegarde d'un serveur. L'une et l'autre s'adressent à la même nature d'information (la donnée informatique) et ont le même objectif (protéger l'information et permettre de la retrouver en cas de perte), mais les méthodes de sauvegarde sont différentes pour plusieurs raisons :
De fait, la sauvegarde des données des postes individuels reste marginale dans la stratégie d'utilisation des ordinateurs. Cependant les entreprises, en généralisant l'usage des micro-ordinateurs et du partage des ressources en réseau, ont ressenti un besoin de sécurité qui a favorisé le développement d'outils de sauvegarde sur micro-ordinateurs, lesquels gagnent petit à petit le monde de la micro-informatique personnelle.
La sauvegarde s'inscrit dans une démarche plus globale qui consiste à assurer la continuité d'activité d'un système informatique ou, en cas de défaillance, son redémarrage au plus vite. Cette démarche est souvent formalisée dans un document qui peut porter des noms divers, par exemple le Plan de reprise d'activité (PRA)[3] ou le plan de secours, et qui fait appel soit à des automatismes (ex. donner l'alerte en cas de coupure de courant ou de perte d'accès à une unité de stockage) soit à des gestes manuels (ex. remplacer des bandes magnétiques défectueuses). La tendance est à l'automatisation, réputée plus sûre dans les situations d'urgence que les opérations manuelles.
En termes de support, les serveurs ont depuis toujours requis des supports à grande capacité de stockage. La bande magnétique a longtemps été le principal vecteur, du fait de sa grande capacité, de son coût faible (par rapport aux autres supports), de sa capacité de réutilisation et de sa relative stabilité au temps et à l'usure. Puis sont venus les cartouches numériques (bandes magnétiques intégrées dans un boîtier plastique type DAT, DLT, SDLT, LTO), les disques durs et plus récemment les médias optiques, réinscriptibles ou non, tels que les CD-R, DVD-R ou formats similaires.
Au cours des années 1975–95, la plupart des utilisateurs d'ordinateurs personnels (PC) associaient principalement le terme "backup" au fait de faire des copies sur disquettes. Avec le développement de micro-ordinateurs mieux équipés, les utilisateurs personnels ont adopté des supports plus performants : disques optiques (CD-ROM ou DVD), clés USB. De même, les ordinateurs intègrent des fonctions de sauvegarde de plus en plus évoluées, par exemple :
Avec la banalisation des connexions Internet à large bande et à haut débit, de plus en plus d’utilisateurs recourent à ce type de service de sauvegarde[5]. On peut différencier deux méthodes :
Aujourd'hui, les copies de sûreté dites « en ligne »[6] deviennent populaires. Elles consistent à se connecter à un site Internet, appelé « Cloud », et à y transférer ses données. Les avantages sont multiples :
Sur le marché de la sauvegarde de données, les entreprises et administrations expriment des attentes spécifiques vis-à-vis des acteurs du marché, si bien qu’elles se tournent en priorité vers des intégrateurs, des éditeurs de solutions de sauvegarde, des fournisseurs d’infrastructure matérielle et des fournisseurs de services d’externalisation de sauvegarde, voire vers des prestataires couvrant un spectre complet d’expertises dans le domaine de la sauvegarde ainsi que de services à distance[7].
L'inconvénient majeur du recours à ces solutions est de laisser ses données à disposition d'un tiers qui peut à loisir les consulter, les modifier, les dupliquer, les publier ou en faire commerce, voire les rendre indisponibles (cas des faillites, rachats de sites par des concurrents, ou différend commercial avec l'hébergeur). Évidemment, des dispositions contractuelles viennent réguler ces risques mais elles ne peuvent empêcher l'hébergeur d'agir techniquement de façon malveillante. Une des parades à la consultation abusive consiste à chiffrer les données.
Un autre inconvénient vient des limites imposées sur le stockage ou la récupération des données : pour maîtriser l'usage de ses disques et de sa bande passante, un hébergeur peut limiter contractuellement son client à un volume de stockage ou de données consultées au-delà duquel il bloque l'accès aux données.
Les critères importants à retenir dans l'utilisation de ce processus de sauvegarde en ligne sont les suivants :
L'évolution des méthodes d'échange de fichiers rend possible depuis un certain temps la sauvegarde en mode « pair à pair ». Cette technique s'appuie sur un service collaboratif où chacun protège ses données sur les espaces de stockage des autres.
Les avantages sont multiples :
L'inconvénient majeur de cette technique est qu'elle s'adresse uniquement aux particuliers. Elle ne répond pas aux besoins des entreprises. Il faut veiller à ce que les données soient entièrement chiffrées afin de les rendre illisibles sur les espaces de stockage des autres. Cette technique doit s'inscrire au sein de groupes de confiance.
La méthode la plus simple est la sauvegarde complète ou totale (appelée aussi "full backup") ; elle consiste à copier toutes les données à sauvegarder que celles-ci soient récentes, anciennes, modifiées ou non.
Cette méthode est aussi la plus fiable mais elle est longue et très coûteuse en termes d'espace disque, ce qui empêche de l'utiliser en pratique pour toutes les sauvegardes à effectuer. Afin de gagner en rapidité et en temps de sauvegarde, il existe des méthodes qui procèdent à la sauvegarde des seules données modifiées et/ou ajoutées entre deux sauvegardes totales[8]. On en recense deux[9]:
La restauration d'un disque avec l'une de ces méthodes s'avère plus longue et plus fastidieuse puisqu'en plus de la restauration de la sauvegarde différentielle ou des sauvegardes incrémentielles, on doit également restaurer la dernière sauvegarde complète. Les fichiers supprimés entre-temps seront restaurés ou non (en fonction des fonctionnalités du logiciel de sauvegarde utilisé)
Afin de comprendre la différence entre les deux méthodes, nous prendrons l'exemple d'un plan de sauvegarde selon le cycle suivant :
Pour pouvoir différencier ces différentes méthodes de sauvegarde/archivage (complète, incrémentielle, différentielle), le mécanisme mis en place est l'utilisation d'un marqueur d'archivage.
Chaque fichier possède ce marqueur d'archivage, qui est positionné à "vrai" lorsque l'on crée ou modifie un fichier. On peut comprendre cette position comme "Je viens d'être modifié ou créé : je suis prêt à être archivé donc je positionne mon marqueur à vrai". Ce marqueur est appelé aussi attribut d'archivage (ou bit d'archivage). Sous Windows, cet attribut est modifiable et peut être visualisé par la commande ATTRIB (attribut A pour archive). Le système de sauvegarde peut aussi constituer une base de données contenant les définitions des fichiers et utiliser un marquage interne.
Lors d'une sauvegarde complète, on va remettre à "0" l'attribut du fichier pour mémoriser le fait que le fichier a été enregistré[9].
Lors d'une sauvegarde complète, tous les fichiers sont sauvegardés, indépendamment de la position du marqueur (vrai ou faux). Une fois le fichier archivé, celui-ci se voit attribuer la position de son marqueur (le bit d'archive) à "faux" (ou à "0").
La restauration faite à partir de ce type de sauvegarde nécessite la recopie sur disque de la dernière sauvegarde complète et de la sauvegarde différentielle la plus récente.
Avec notre exemple, si la restauration porte sur un disque complet qui a été sauvegardé le jour J+2, on doit alors recopier sur disque la sauvegarde complète du jour J et la sauvegarde différentielle du jour J+2 afin d'avoir la dernière version des données.
Cependant lorsqu'il s'agit de la restauration d'un fichier ou d'un répertoire qui a été sauvegardé le jour J+2 seule la dernière sauvegarde, ici la différentielle, est utile.
Lors d'une sauvegarde différentielle, tous les fichiers dont le marqueur est à "vrai" sont sauvegardés. Une fois le fichier archivé, celui-ci garde la position de son marqueur tel qu'il l'avait avant la sauvegarde.
Certains logiciels de sauvegarde donnent la possibilité d'utiliser non pas le bit d'archive, mais l'heure de modification du fichier pour déterminer si celui-ci est candidat ou non à la sauvegarde[10].
Exemple : une sauvegarde complète est réalisée le jour J. Le jour J+1, la sauvegarde incrémentielle est réalisée par référence au jour J. Le jour J+2, la sauvegarde incrémentielle est réalisée par référence au jour J+1. Et ainsi de suite.
Si la restauration se porte sur un disque complet qui a été sauvegardé le jour J+4, on doit alors recopier sur disque la sauvegarde du jour J et les sauvegardes incrémentielles des jours J+1, J+2, J+3 et J+4 afin d'obtenir la dernière version de la totalité des données.
Cependant lorsqu'il s'agit de la restauration d'un fichier ou d'un répertoire qui a été sauvegardé le jour J+3, seule la dernière sauvegarde, ici l'incrémentielle, est utile.
La sauvegarde incrémentale peut également porter sur les seuls octets modifiés des fichiers à sauvegarder. On parle alors de sauvegarde incrémentale octet. Cette méthode est celle qui permet d'optimiser le plus l'utilisation de la bande passante. Elle rend possible la sauvegarde de fichiers de plusieurs Gigaoctets, puisque seul un pourcentage minime du volume est transféré à chaque fois sur la plateforme de sauvegarde.
Lorsqu'un fichier a été supprimé du système de fichier, une sauvegarde incrémentale doit enregistrer que ce fichier qui était présent lors de la sauvegarde précédente devra être supprimé lors de la restauration de cette sauvegarde incrémentale, afin de restaurer le système de fichier exactement dans son état d'origine. Ce point n'est pas toujours pris en compte par les logiciels de sauvegardes gérant les sauvegardes incrémentales. La restauration à partir de sauvegardes incrémentales avec des logiciels ne gérant pas la suppression des fichiers conduit alors à reconstituer le système de fichier original pollué par tous les fichiers qui ont été supprimés parfois de longue date.
Lors d'une sauvegarde incrémentielle, tous les fichiers dont le marqueur est à "vrai" sont sauvegardés. Une fois le fichier archivé, celui-ci se voit attribuer la position de son marqueur à "faux".
La conservation permet de faire la différence entre sauvegarde et archivage.
La durée de conservation est le temps pendant lequel la donnée sauvegardée est maintenue intacte et accessible. Si elle est courte, il s'agit d'une sauvegarde classique : la donnée est protégée contre sa disparition/son altération. Si elle est longue (une ou plusieurs années), il s'agit d'archivage, dont le but est de retrouver la donnée avec la garantie qu'elle n'a pas été modifiée ou falsifiée.
Exemple : une conservation de quatre semaines implique que les données sauvegardées à une date précise seront toujours disponibles jusqu'à 28 jours après leur sauvegarde. Après ces 28 jours, d'un point de vue logique, les données n'existent plus dans le système de sauvegarde et sont considérées comme introuvables. Physiquement, les pistes utilisées pour enregistrer cette sauvegarde peuvent être effacées.
Plus la conservation est longue et plus le nombre d'instances sauvegardées pour un même objet fichier ou dossier est important, ce qui nécessite un système de recherche et d'indexation approprié, et plus l'espace nécessaire pour stocker les résultats de la sauvegarde sera important.
Cette formule permet de dimensionner une librairie de sauvegarde (bande ou disque VTL).
Dans le cas d'une sauvegarde classique, c'est-à-dire sauvegarde totale le week-end (vendredi soir) et sauvegardes incrémentielles les autres jours ouvrés de la semaine, du lundi au jeudi (pas le vendredi) soit quatre jours :
la formule suivante est obtenue : D x R + (D x T %) x 4 = capacité de sauvegarde.
Exemple chiffré : 100 Go au total à sauvegarder avec une rétention de 3 semaines et un taux de modification de 20 % par jour donne 100 x 3 + (100 x 20 %) x 4 = 380 Go. 380 Go seront nécessaires pour sauvegarder nos 100 Go de données avec une rétention de 3 semaines et une modification de 20 % par jour.
Des innovations technologiques telles que les snapshots ou la déduplication permettent de réduire cette valeur d'une façon très intéressante.
Contrairement à la sauvegarde incrémentale où la sauvegarde la plus ancienne est complète et les suivantes différentielles, le principe de la sauvegarde décrémentale consiste à obtenir une sauvegarde complète comme sauvegarde la plus récente et des sauvegardes différentielles pour les plus anciennes.
L'avantage tient au fait que la restauration complète du système dans son état le plus récent est simple et rapide, on n'utilise que la dernière sauvegarde, (contrairement à la méthode incrémentale qui implique la restauration de la plus ancienne (complète) puis de toutes les suivantes, incrémentales). Si maintenant on souhaite récupérer le système dans l'état de l'avant dernière sauvegarde, il faut restaurer la dernière sauvegarde (complète) puis la précédente (dite "décrémentale" parce qu'elle donne la différence à appliquer au système de fichier pour atteindre l'état N-1 à partir de l'état N). Autre avantage, le recyclage de l'espace de stockage des sauvegardes est simple car il consiste à supprimer les sauvegardes les plus anciennes, alors que dans le cas des sauvegardes incrémentales le recyclage implique usuellement plusieurs jeux de sauvegarde (complète + incrémentales).
Le désavantage de cette approche est qu'elle nécessite plus de manipulation de données à chaque sauvegarde, car il faut construire une sauvegarde complète à chaque nouvelle sauvegarde et transformer l'ancienne sauvegarde la plus ancienne (qui était donc une sauvegarde complète) en une sauvegarde décrémentale.
La sauvegarde de données peut être réalisée en utilisant des techniques plus ou moins sophistiquées. La méthode la plus simple est de parcourir les répertoires et les fichiers d'un poste de travail ou d'un serveur. Mais on se trouve vite limité par le nombre de fichiers et par le volume de données, lesquels ont un impact direct sur le temps de sauvegarde. Pour contourner ces limitations, plusieurs approches sont envisageables :
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.