Loading AI tools
De Wikipédia, l'encyclopédie libre
Dans le cadre de la supervision de réseaux, le Fault management est l'ensemble des fonctions qui permettent de détecter, isoler et corriger les erreurs dans un réseau de télécommunication et de réagir aux changements environnementaux.
Cela inclut la maintenance et l'analyse des historiques d'erreurs, l'acceptation et la gestion d'évènements de notification d'erreurs, le suivi et l'identification de celles-ci, la menée de tests de diagnostic, la correction des erreurs et la publication d'informations pertinentes les concernant, la localisation et le suivi des erreurs par l'examen et la manipulation d'informations contenues dans des bases de données.
Lorsqu'une erreur ou un évènement se produit, un équipement réseau enverra souvent une notification à l'opérateur réseau en utilisant un protocole tel que le SNMP. Une alarme est une indication persistante d'une faute, qui ne disparait que lorsque les conditions qui l'ont produites ont été résolues. La liste courante des problèmes liés à l'équipement réseau est souvent conservée sous la forme d'une liste d'alarmes actives telles que définies dans la RFC 3877, la MIB d'alarmes. Une liste des erreurs réparées est aussi maintenue par la plupart des équipements réseau.
Les systèmes de fault management peuvent utiliser des systèmes de filtrage complexes pour assigner aux alarmes des degrés de sévérité. Ils peuvent aller de mineurs à urgents, comme dans le protocol syslog. De manière alternative, ils peuvent utiliser les champs de sévérité perçus des fonctions de report d'alarme suivant l'ITU X.733. Les valeurs possibles sont alors réparées, indéterminées, critiques, majeures, mineures ou avertissements.
Notez que la dernière version du protocole syslog, encore actuellement en développement à l'IETF, inclut des correspondances entre les différentes échelles de sévérité. Il est considéré comme une bonne pratique d'envoyer une notification non seulement lorsqu'un problème est apparu, mais également lorsque celui-ci a été résolu. Dans ce dernier cas, la sévérité serait "réparée".
Une interface de fault management permet à un administrateur réseau ou à un opérateur système de superviser des évènements de systèmes multiples et d'effectuer des actions basées sur ces informations. Idéalement, un système de fault management devrait permettre d'identifier correctement les évènements et de prendre automatiquement les décisions qui s'imposent, comme le lancement d'un programme ou d'un script correctif, ou l'activation d'un logiciel de notification qui va permettre à un opérateur humain d'effectuer les actions appropriées (par exemple, en lui envoyant un SMS ou un courriel). Certains systèmes de notification ont également des règles de préemption qui permettent d'avertir plusieurs personnes en fonction de leur disponibilité et de la sévérité des alarmes.
Il y a deux manières premières de faire du fault management : une active et une passive.
Traduction littérale de l'article Fault Management en version anglophone.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.