Alors évidemment tu as déclenché le problème pour autant et pour moi, le vrai responsable est le client. Le meilleur des meilleurs sysadmins n’est pas à l’abri qu’une opération se déroule mal, une carte RAID (matériel) qui tombe en panne, 2 disques qui posent problème en même temps, un bug… Ne pas avoir de sauvegardes est intolérable, c’est un très grave manque de professionnalisme de ton client. Je suis étonné que ton entreprise ne fasse pas payer les sauvegardes aux clients ou n’exige pas des clients qu’ils en aient contractuellement, ça se fait de plus en plus pour se protéger (l’entreprise dans laquelle on bosse).
Perso je suis chez un hébergeur donc tous les serveurs des clients que je gère sont vitaux/importants : 1/ Toute l’équipe est au courant qu’il va y avoir une opé, je le rappelle qq minutes avant de commencer 2/ J’écris le scénario de l’opération càd tout ce qui doit être fait plusieurs jours avant puis je le fais lire à mon collègue sysadmin, il est rare que tout soit parfait, on trouve toujours mieux (plus rapide/sûr, un meilleur outil ou orga pour le faire, etc.), on apprend/progresse en tant qu’individu et en tant qu’équipe
Merci pour ton té.moignage. Mais pour moi ta principale erreur c’est : “On est vendredi, je me dis « bon allez, je commence les opérations…”
Jamais un vendredi :-)
On apprend beaucoup des gros incidents et des boulettes en prod. Beaucoup plus qu’en lisant des articles.
Le fait d’avoir écrit un PostMortem est S U P E R important. Il met des mots sur les erreurs, t’obliges à réfléchir et imprime à jamais l’histoire dans ton cerveau.
Ce qui est important aussi, c’est de ne jamais cacher… j’ai toujours pris le partie de dire la vérité à mes chefs.
Ce qui est embêtant et que les gens comprennent pas souvent, c’est que comme dans le commitstrip, il est 19h42 et t’as deux mecs qui ont été entraînés dans l’incident alors qu’ils y sont pour rien (enfin celui qu’a donné le go pour leur donner une leçon, un peu :)
ouais, on va dire que c’est à mon sens une “erreur” de confort, car de toute façon il aurait fait la boulette lundi :) Je pense que le point des backups est plus important.
Une très bonne raison également de ne pas faire d’actions critiques le vendredi concerne la fatigue. Le vendredi est le dernier jour de la semaine et on est plus sensible à l’erreur ainsi qu’être plus ralenti. Une erreur le mardi par exemple sera en général corriger plus vite car toute les équipes sont opérationnelles et dans un meilleure état intellectuel que le vendredi.
Salute,
Alors évidemment tu as déclenché le problème pour autant et pour moi, le vrai responsable est le client. Le meilleur des meilleurs sysadmins n’est pas à l’abri qu’une opération se déroule mal, une carte RAID (matériel) qui tombe en panne, 2 disques qui posent problème en même temps, un bug… Ne pas avoir de sauvegardes est intolérable, c’est un très grave manque de professionnalisme de ton client. Je suis étonné que ton entreprise ne fasse pas payer les sauvegardes aux clients ou n’exige pas des clients qu’ils en aient contractuellement, ça se fait de plus en plus pour se protéger (l’entreprise dans laquelle on bosse).
Perso je suis chez un hébergeur donc tous les serveurs des clients que je gère sont vitaux/importants : 1/ Toute l’équipe est au courant qu’il va y avoir une opé, je le rappelle qq minutes avant de commencer 2/ J’écris le scénario de l’opération càd tout ce qui doit être fait plusieurs jours avant puis je le fais lire à mon collègue sysadmin, il est rare que tout soit parfait, on trouve toujours mieux (plus rapide/sûr, un meilleur outil ou orga pour le faire, etc.), on apprend/progresse en tant qu’individu et en tant qu’équipe
Tcho !
+1, tout le monde fait des erreurs, les opérations sans filet, non merci.
Exact, comme mon chef disait, y’a que ceux qui ne font rien qui ne font pas d’erreurs
[Comment removed by author]
Merci pour ton té.moignage. Mais pour moi ta principale erreur c’est : “On est vendredi, je me dis « bon allez, je commence les opérations…” Jamais un vendredi :-)
[Comment removed by author]
Pourtant CommitStrip l’a dit : https://www.commitstrip.com/fr/2018/11/06/experience-is-a-candle/ :)
On apprend beaucoup des gros incidents et des boulettes en prod. Beaucoup plus qu’en lisant des articles.
Le fait d’avoir écrit un PostMortem est S U P E R important. Il met des mots sur les erreurs, t’obliges à réfléchir et imprime à jamais l’histoire dans ton cerveau.
Ce qui est important aussi, c’est de ne jamais cacher… j’ai toujours pris le partie de dire la vérité à mes chefs.
Bravo à toi
Ce qui est embêtant et que les gens comprennent pas souvent, c’est que comme dans le commitstrip, il est 19h42 et t’as deux mecs qui ont été entraînés dans l’incident alors qu’ils y sont pour rien (enfin celui qu’a donné le go pour leur donner une leçon, un peu :)
ouais, on va dire que c’est à mon sens une “erreur” de confort, car de toute façon il aurait fait la boulette lundi :) Je pense que le point des backups est plus important.
Une très bonne raison également de ne pas faire d’actions critiques le vendredi concerne la fatigue. Le vendredi est le dernier jour de la semaine et on est plus sensible à l’erreur ainsi qu’être plus ralenti. Une erreur le mardi par exemple sera en général corriger plus vite car toute les équipes sont opérationnelles et dans un meilleure état intellectuel que le vendredi.