Par pitié, faites des sauvegardes, et testez les

closeCet article a été publié il y a 8 ans 10 mois 29 jours, il est donc possible qu’il ne soit plus à jour. Les informations proposées sont donc peut-être expirées.

J’aimerais vous faire un retour d’expérience sur un cas pratique personnel ainsi qu’au taf qui, s’il se sont bien terminés, aurait pu avoir des conséquences graves. On va donc parler aujourd’hui de sauvegarde, et de test de sauvegarde, et croyez moi, ça nous concerne tous.

Le numérique. C’est merveilleux mais nos données toujours plus nombreuses n’ont jamais été aussi en danger avec des supports de stockage à la durée de vie toujours plus faible. Aussi sauvegarder ce qui vous semble le plus important (documents, photos) est devenu vital. Je parlerai plus longuement des formes de sauvegarde tout à l’heure, dans l’immédiat, j’aimerais vous présenter deux cas d’école que j’ai pu vivre ces derniers mois.

Personnel : adieu RAID 5

Si vous ne voyez pas trop ce qu’est le RAID, vous pouvez éventuellement relire l’article que j’avais fait dessus. Juste rappeler que j’avais configuré, sur mon serveur perso, un groupe de trois disques de sorte que je puisse me permettre d’avoir un disque en panne sans que ça entraîne une perte des données qui sont dessus.

On peut donc se dire qu’on est à l’abri, et donc je négligeais souvent la sauvegarde du plus important : docs administratifs en tout genre, photos de mon époque pré-haut débit /smartphone, ce genre de chose.

Quand un beau matin, pendant le petit déjeuner où je faisais une passe sur mes flux RSS, plus rien ne répond. Petit diagnostic rapide : deux disques durs se sont mis en défaut en même temps, et l’un des deux ne veut même plus répondre à smartctl. Pas de préavis, juste le fait qu’ils tournaient depuis plusieurs années jour et nuit sans interruption.

Donc plus accès à aucune donnée. Un seul disque en rade ça serait passé mais deux, niet. Et donc pas de copie de sauvegarde du plus important (même si ça me faisait chier, j’aurai pu faire mon deuil des 4 saisons de Supercopter difficilement retrouvées, ou des innombrables pépites comme Firefly).

L’affaire s’est bien terminée : j’ai éteint le serveur sur le coup, et trois semaines plus tard, quand j’ai pu y accéder physiquement, lors d’une tentative de redémarrage, le noyau a accepté de remettre le moins attaqué des disques dans la grappe, j’ai pu récupérer la totalité des presque trois Téraoctets de fichiers divers et variés, et j’étudie en ce moment l’architecture de la nouvelle machine, et d’un système de sauvegarde confortable (et abordable). Ouf.

Professionnel : les sauvegardes pourries

Pas plus tard qu’hier (à la date du début de la rédaction de ce billet), l’équipe en charge des serveurs mutualisés décide d’interrompre ponctuellement le service pour faire la mise à jour des paquets d’un des serveurs, y compris le noyau.

Le premier signe qui aurait dû alerter que quelque chose pouvait mal se passer, la machine n’avait pas été redémarrée depuis près d’un an. Ça encore, ça peut arriver tous les jours. Le kernel panic, c’est déjà beaucoup plus rare. Mais ça aussi, ça peut arriver. Et quand on répare le kernel, on découvre que le Physical Volume d’LVM, qui contient toutes les données clients, est corrompu (bad super block). Ça, par contre, c’est la misère.

Contrairement à moi, la machine virtuelle est sauvegardée toutes les nuits pendant 32 jours. Donc le premier réflexe est de restaurer la VM de la nuit précédente. Pas de bol, le super block est aussi corrompu dans cette sauvegarde. Vous la sentez venir la mauvaise blague ? Oui, toutes les sauvegardes avaient enregistré le super block corrompu. Je vais pas rentrer dans le détail de comment ça a pu fonctionner en l’état pendant tout ce temps, c’est pas le sujet. Le fait est que sur le coup, on est pas sûr de pouvoir récupérer les données des quelques 60 sites qui sont installés dessus.

Grâce à la persévérance de deux de nos ingénieurs, on a finalement réussi à récupérer la partition dans un état utilisable, après plus de 6h d’interruption cependant. Mais c’est un fait. Si on avait testé ne serait-ce qu’une seule des sauvegardes avant de planter la bécane, on aurait pu copier à chaud les données ce qui nous aurait permis de remettre éventuellement une machine annexe en ligne (en mode dégradé certes dans l’immédiat, mais en ligne quand même). Ou de réparer avant même de planter le bousin.

Oui mais on sauvegarde comment ?

Parfois, c’est aussi simple que de copier votre fichier sur une clé USB. Certains profitent aussi du « cloud » qu’on vous vend à toutes les sauces sans savoir vous l’expliquer quand vous posez les bonnes questions. D’autres vont plus loin en installant un raspberry pi avec un dd externe chez les beaux parents pour avoir une sauvegarde externe. Les copies peuvent se faire avec du script maison, du copier/coller à la main, des logiciels conçus pour ça (qui permettent notamment d’optimiser la taille des sauvegardes et de faciliter les restaurations).

Bref, une copie, sur un support différent, et idéalement un lieu différent. Souvenez vous notamment de mon script de sauvegarde du blog que j’avais présenté il y a quelques temps : le site est sur un dédié chez OVH, et j’envoie (ou plutôt j’envoyais, vu qu’il n’y a plus de serveur) la sauvegarde à la maison. Comme ça, si ça pète, je peux remettre rapidement en ligne.

Mais surtout, vérifiez régulièrement ces copies. J’ai évoqué la durée de vie des supports, les mémoires flash (clé USB, carte mémoire, smartphones, SSD) ont un nombre de cycles lecture/écriture définie, après quoi elles se dégradent. Un disque dur « mécanique » (de ceux qui font plusieurs Téraoctets), ne dépasse que rarement les cinq ans. Mais le numérique a ça de bien pour lui que chaque copie est strictement identique à l’original, contrairement à un document qu’on photocopierai par exemple. N’hésitez donc pas à multiplier les copies si vous pensez que c’est nécessaire. Une copie c’est bien, deux c’est mieux, dans des endroits différents c’est mieux aussi.

Dans ce dernier cas, on cherchera éventuellement à éviter que tout le monde puisse accéder facilement aux données. Vous pouvez stocker simplement les documents dans des archives protégées par mot de passe. Également, les utilitaires comme TrueCrypt, dont j’ai déjà parlé et qui dernièrement vient « enfin » de faire l’objet d’un rapport de sécurité sur une faille possiblement exploitable, sont là pour ça. Si vous pensez que TrueCrypt n’est plus assez sur pour vous, il a vu apparaître quantité de remplaçants, VeraCrypt en tête, qui est lui aussi multiplateformes, contrairement à nombre de logiciels qui se veulent « l’héritier » — on dirait la chute de l’empire de Charlemagne… Certains utiliseront le chiffrement au niveau du système de fichiers ou de la partition sous-jacente, BitLocker sous Windows, LUKS sous Linux (j’en parlerais prochainement je pense de celui-là). Encore pareil, pour Apple, débrouillez-vous, partagez dans les commentaires si vous voulez. Sous Android et iOS, vous pouvez chiffrer les données par défaut, ce qui empêche un éventuel voleur d’accéder à froid à vos informations personnelles.

Bref, il y a plein de moyen de sécuriser ses données et ses sauvegardes. Il faut juste se bouger le cul et y mettre un peu d’huile de coude. C’est pas compliqué, vous avez bien réussi à vous servir de Facebook après tout, rien n’est impossible…

10 Commentaires
Le plus ancien
Le plus récent
Commentaires en ligne
Afficher tous les commentaires
Cascador
Cascador
24/10/2015 19:16

Hello,

J’ai personnellement vu des RAID5 se casser la gueule en entreprise maintenant toujours du RAID5 mais avec un hotspare. A la maison pas de RAID5 même si c’est possible, pas de RAID (ou RAID1 seulement), de la copie entre les disques durs. Ça me permet de sauvegarder seulement les trucs importants et d’être autonome en cas de trucs qui se cassent la gueule contrairement au RAID5 où en général tu juste pleures.

Tcho !

Erwann
Erwann
24/10/2015 21:57
Répondre à  Cascador

Je ne peux que souscrire à cet article. Je donne régulièrement des formations dans l’industrie (en particulier industrie du secteur de la santé) et j’anime entre autre une formation sur la gestion des données qui peut être résumée par : « on n’est jamais trop paranoïaque lorsqu’il s’agit de sécuriser des données ». Le problème des RAID – serveurs, SAN, NAS – est que la plupart du temps, les disques font partie du même lot de fabrication et qu’ils ont généralement le même nombre « d’heures de vol ». Donc, la statistique jouant à plein, ils tombent en panne en même temps. J’ai rencontré… Lire la suite »

Erwann
Erwann
25/10/2015 10:33
Répondre à  Seboss666

Il y a plusieurs soucis : – Quelque soit la qualité générale des disques, il y a des séries plus robustes que d’autres ; cf. https://www.backblaze.com/blog/hard-drive-reliability-q3-2015/ – La taille de plus en plus importante des disques allonge de manière significative le temps nécessaire à la reconstruction. Cette reconstruction est une période de stress pour les disques et peut accélérer la défaillance de disques qui arrivent en fin de vie (prématurée ou non). – Grâce à la technologie SMART, les disques peuvent être monitorés de manière très précise, tant que le controlleur du SAN, NAS, serveur prend en compte ces informations… Lire la suite »

Ordinatous SeeYou
Ordinatous SeeYou
24/10/2015 21:09

Article vraiment intéressant, par contre tu m’a donné faim avec ta sauvegarde de « bad super block » , et j’ai hate de lire ton article sur LUKS. en tout cas merci pour ton retour.

nicoz
nicoz
25/10/2015 21:26

perso j’ai arreté les RAID5 en prod, je préfère un Raid1 avec plusieurs disques donc X en spare….
d’une ça se reconstruit plus vite et sur n’importe quel disque on peut récupérer les données…..

nicoz
nicoz
25/10/2015 21:27
Répondre à  nicoz

je et rajouterai, pas de RAID1 logiciel comme le SHA de synology, que du vrai et du propre 🙂

Redscape
27/10/2015 09:31

:disqus Tu héberges tes données où principalement ? Chez toi ou sur un serveur dédié chez un hébergeur ?