En effet, tous les membres du service informatique de la société sont à ce moment en congé, car notre patron nous a imposé de faire tous les ponts du mois, et si l'on me contacte, c'est que personne d'autre n'a pu être joint.

En tant que directeur technique, J'avais pourtant prévenu ma hiérarchie que ce n'était vraiment pas une bonne idée de faire partir tout le monde en congé, d'autant plus le chiffre d'affaire de la société dépend en grande partie de la fiabilité de l'informatique, qu'il n'y avait aucune politique d'astreinte et en conséquence, cela revenait à ouvrir en grand la porte à M. Murphy.

Je décroche donc mon téléphone et mon patron m'annonce alors que la climatisation de la salle machine est tombée en panne durant le weekend, que la température de la pièce est donc de 50° et que de ce fait l'intégralité du réseau local de l'entreprise est en vrac et qu'en conséquence, plus personne ne peut travailler.

J'ai alors effacé de mon esprit la phrase Merde, j'ai encore eu raison, et j'ai fait de mon mieux pour dépanner mon patron à distance qui n'a absolument aucune notion d'administration système ou de réseau.

Or, notre baie technique était à cette époque totalement inadaptée à cet exercice, car les machines n'étaient pas étiquetées, sans parler du fait que de toute façon, mon patron ne disposait pas des accès permettant de se connecter sur les serveurs.

J'ai donc indiqué deux ou trois manipulations qui n'ont pas eu d'effets significatifs, et lorsque j'ai finalement raccroché mon téléphone car je ne voyais plus quoi faire, j'étais loin d'être optimiste car d'après ce que j'avais compris de la situation, un équipement semblait être défectueux.

Quelques temps plus tard, mon téléphone sonne à nouveau, et mon patron m'annonce alors qu'en désespoir de cause, il avait pris sur lui de redémarrer à la sauvage  l'ensemble des machines et que cela avait un peu amélioré la situation puisque le réseau local était à nouveau disponible, mais que personne ne pouvait se connecter à Internet car le proxy refusait toute connexion.

J'ai fais la grimace car le redémarrage à l'arrache d'un équipement est loin d'être ma tasse de thé, mais j'ai fais contre mauvaise fortune bon cœur et j'ai encore une fois fait de mon mieux.

Cependant, je n'ai pas pu résoudre le problème, et la décision a été prise de passer par le réseau wifi ainsi que par les téléphones portables pour se connecter à Internet jusqu'au retour de vacances des membres du service informatique.

La situation resta donc en l'état jusqu'à mon retour au travail le mercredi matin, car ayant profité de ma journée de congé pour prendre un certain nombre de rendez-vous personnel (j'ai trouvé ma maison ce jour-là), je n'ai bien évidemment pas pu me libérer avant (la Loi de l'emmerdement maximal porte bien son nom).

À mon retour, la situation n'a bien évidement pas évolué d'un poil, mais mon administrateur système est présent et m'explique qu'il a égaré son téléphone portable, ce qui explique pourquoi il n'était pas joignable (la Loi de l'emmerdement maximal porte vraiment très bien son nom).

Nous nous mettons donc au travail pour résoudre le problème et mon collègue découvre rapidement que le problème d'authentification au niveau du proxy vient du fait que les serveurs n'ont pas été redémarré dans le bon ordre.

Le proxy n'est donc pas parvenu à se connecter dans le délai imparti au serveur LDAP puisque ce dernier était en cours de démarrage au moment ou le proxy a essayé de s'y connecter.

Nous redémarrons donc dans l'ordre ad hoc les serveurs et nous pouvons donc maintenant nous rendre sur Internet... ou pas, car notre liaison ADSL semble avoir quelques soucis puisque  nous perdons quasiment 95% des paquets que nous envoyons (puisqu'on vous dit que c'est la loi de l'emmerdement maximal).

Nous tentons alors de nous connecter en SSH sur notre pare-feu pour faire passer le trafic sur notre liaison SDSL, mais il nous est impossible de nous authentifier, et ce n'est finalement qu'après être passé en désespoir de cause par une liaison série que nous y parvenons.

Nous découvrons alors que le pare-feu ne parvient pas à router correctement le trafic car il a une charge CPU énorme, et nous tentons donc d'en découvrir l'origine.

Malgré le fait que les outils à notre disposition sont pour le moins limités, nous finissons par découvrir que ce firewall stocke ses journaux de connexion dans une base de données MySQL, base de données qui a apparemment suffisamment souffert des différents redémarrage à la sauvage successif pour nécessiter une réparation via myisamchk et que ce dernier monopolise l'ensemble des ressources de la machine.

Nous arrêtons donc le processus concerné et nous détruisons puis recréons la base de données incriminée, et nous avons alors enfin un accès à Internet qui fonctionne correctement, pendant approximativement 15 minutes car après ce laps de temps, nous reperdons à nouveau des paquets et plus rien ne fonctionne correctement (Quand M. Murphy s'invite, ce n'est pas juste pour l'apéro).

Nous voulons alors repasser par notre ligne SDSL, mais nous ne pouvons à nouveau plus nous connecter en SSH au pare-feu, et un traceroute semble indiquer que notre switch principal ne semble plus capable de router correctement les paquets.

Mon administrateur système a alors l'idée de génie de vérifier les tables ARP, et nous découvrons alors avec stupeur qu'un équipement sur notre réseau usurpe l'adresse IP de celle de notre switch.

Durant la pause de midi, afin de déranger le minimum de personne, nous avons donc tenté de localiser le coupable en débranchant tous les équipements du switch et en les rebranchant un à un.

Malheureusement, le test des 48 ports du switch a été plus long que prévu, nous n'avons pas eu suffisamment de temps pour parvenir à nos fins, et nous avons donc fini dans la précipitation, ce qui a eu pour effet de faire tomber le réseau téléphonique (la téléphonie étant la seule chose qui ne posait pas de problème, il était logique qu'elle tombe également, d'après la LEM).

En effet, la téléphonie passe par un VLAN géré par notre switch et il faut donc brancher les câbles réseaux sur les bons ports du switch pour qu'elle fonctionne correctement.

Or, nous n'avons pas d'accès sur le switch car le prestataire qui a réalisé l'installation et la configuration ne nous a jamais fourni la moindre documentation, malgré nos demandes répétées, et nous sommes donc incapable de corriger notre erreur de branchement pas nous-même (là, j'ai commencé à vraiment comprendre l'aspect maximal).

Nous voici donc sans accès à Internet et sans téléphonie, alors que cela fait déjà deux jours que l'informatique n'est pas opérationnelle.

En désespoir de cause, je sacrifie un agneau sur le parking de la société pour tenter de calmer Murphy, et je transforme une ancienne machine en pare-feu grâce à PFSense (et au passage, PFSense, c'est juste génial) pendant que mon collègue contacte le prestataire chargé de la téléphonie pour qu'il vienne dans nos locaux dans les meilleurs délais afin de remettre tout d'aplomb, et accessoirement pour qu'il nous fournisse les accès et la documentation relative à notre installation.

Et peu après qu'il ai fait cela, j'ai eu la surprise de le voir partir comme un boulet de canon dans un bureau adjacent et y débrancher un équipement dont j'ignorais totalement l'existence.

Je demande donc des explications et j'apprends alors que le service marketing dispose d'une borne bluetooth pour tester la diffusion de messages publicitaires via des SMS et qu'il est fort probable qu'il s'agisse de l'équipement qui usurpe l'IP de notre switch.

Les bras m'en tombe, mais je passe outre pour le moment et nous branchons la SDSL sur mon pare-feu bricolé (qui fonctionne du feu de Dieu) et nous récupérons enfin un accès à Internet, ainsi qu'un peu plus tard la téléphonie et une climatisation portable pour refroidir la salle machine, uniquement ventilé jusque là par la climatisation du bureau attenant, réglée sur froid polaire.

Nous partons donc le soir avec soulagement, en nous disant que le sacrifice de l'agneau n'a pas été inutile et qu'il ne nous restera plus qu'à retrancher notre firewall habituel et la liaison ADSL demain matin pour que tout soit rentré dans l'ordre... ou pas (ben oui, sinon, la Vie serait beaucoup moins marrante).

Car le lendemain matin, au moment ou nous retranchons la liaison ADSL sur le pare-feu, la borne bluetooth est également réactivée par un membre du service marketing, et nous voilà donc à nouveau plongé dans les emmerdements problèmes jusqu'au cou.

Nous n'avons pas eu en effet le réflexe d'aller vérifier immédiatement que la borne était toujours inactive, car nous avons pensé que tous le monde avait très bien compris qu'il était hors de question de rebrancher ce truc sur le réseau.

Or, le message n'était pas bien passé…

Bref, tout ce qui pouvait poser un problème a posé un problème, voir même à plusieurs reprises, et après un total de trois jours de prises de tête intenses, nous sommes finalement parvenus à revenir à une situation normale à tout point de vue

Mais malgré les apparences, tout cela a été paradoxalement globalement positif d'un point de vue technique.

Tout d'abord, nous avons profiter du temps d'interruption pour câbler et étiqueter correctement notre baie et y faire le ménage, ce qui ne fut pas du luxe, car même si nous avions envie de le faire depuis longtemps, nous n'en avons jamais eu l'opportunité.

Ensuite, nous avons obtenu de notre prestataire de téléphonie la documentation relative à notre installation, ainsi que les accès à notre équipement car à cet occasion, nous avons eu à faire à un interlocuteur différent de celui que nous avons habituellement et ce dernier s'est révélé bien plus efficace et professionnel.

De plus, nous avons identifié la procédure à suivre pour redémarrer correctement l'ensemble de nos équipement, et nous avons rédigé la documentation adéquate en conséquence.

Au passage, nous avons gagné un équipement de secours capable de prendre le relais de notre firewall si d'aventure ce dernier avait un problème et nous avons identifié un certain nombre d'actions à entreprendre pour pouvoir régler ce genre de problème plus efficacement la prochaine fois qu'il se produira.

Enfin, à l'avenir, il devrait toujours y avoir au moins une personne au service informatique, car les gens ont compris que lorsque Murphy s'invite quelque part, il ne vient pas en ami, et qu'en conséquence, il faut garder une marge de sécurité et qu'il y a certaine chose qu'il ne vaut mieux pas remettre indéfiniment à plus tard !

Et le prochain qui branche un équipement sur le réseau informatique de la société sans nous en avertir aura de très gros problèmes…

Pour conclure, certains éléments de cette histoire relèvent de la pure fiction et je vous laisse deviner lesquels.