troubleshooting1

Le troubleshooting a deux objectifs,:

  1. Identifier rapidement les VM qui se dégradent, anticiper les anomalies.
  2. Fournir des explications et corriger les problèmes récurrents.

DC Scope : - analyse l’ensemble des VM ou seulement les VM d’un filtre élément sélectionné - examine ces VM suivant des dépassements de seuils de bonnes pratiques par ressource - affiche ... Affiche selon 2 codes visuels : une flèche plus ou moins orientée et une couleur (rouge, orange ou verte).

* * *
1 Time beyond a threshold of best practices = 1 Point according to the threshold exceeded.
Color of the arrow Direction of the arrow
troubleshooting2 troubleshooting2

L’orientation / inclinaison de la flèche Indique l’évolution de la « santé » de la VM : - vers le bas : amélioration - vers le haut : dégradation. Le principe de fonctionnement est le suivant : La période d’analyse est divisée en deux (période A et B). Pour chaque ressource (cpu, disque et réseau) on compte le nombre de points qui dépassent les seuils fixés sur le critère rouge sur la période A puis sur la période B. Si il y a le même nombre de points entre les 2 périodes alors la flèche est plate dite «flat». Si la zone B contient au moins 5% de points en plus que la zone A alors la flèche est ascendante dite «asc». Si la zone A contient plus de points que la zone B alors la flèche est descendante dite «desc».

Filtering and sorting

Le filtre permet d’afficher l’ETAT GENERAL des VM qui répondent à une ressource ascendante (cpu par exemple). Il affiche la couleur et la flèche de l’état général (ressource la plus dégradée et état le plus critique). Le filtre critical permet d’afficher toutes les VM dont l’angle d’inclinaison sur l’une des trois res- sources (cpu, disk ou net) est positif. Le filtre cpu affiche toutes les VM dont la couleur est orange ou rouge sur la ressource cpu et dont l’inclinaison de la flèche est positive en cpu. Le filtre «disk» affiche toutes les VM dont la couleur est orange ou rouge sur la ressource disque et dont l’inclinaison de la flèche est positive en disque. Le filtre net affiche toutes les VM dont la couleur est orange ou rouge sur la ressource réseau et dont l’inclinaison de la flèche est positive en réseau. Le tri peut s’effectuer par nom de VM ou par degré d’inclinaison de la flèche de chaque ressource.

List view

Il est possible de visualiser sous forme de liste, le tri est différent. Cette vue donne tous les points rouges sur l’ensemble de la période et sur toutes les métriques.

troubleshooting3

Thresholds of Best Practices

Pour chaque ressource on distingue deux seuils à ne pas dépasser (orange et rouge) qui correspondent à deux niveaux de valeurs différentes.

Pour chaque ressource, une ou plusieurs métriques sont analysées:

CPU resource

Item Description Orange Red
Too much CPU activity on host CPU overload at the hypervisor level (too much ready on VMs, waiting to give access) 5 % 10 %
Too much VCPU on VM CPU overload at VM level (high COSTOP counter, too much VCPU allocated) 1 % 3 %
Virtual machine overload Overload to «inside the VM» 90 % 95 %

DISK resource

Item Description Orange Red
Controls failed Number of SCSI disk drives lost 1 5
Total latency Average time to read and write on the disk 20ms 30ms

RAM resource

Item Description Orange Red
Virtual machine overload Virtual machine overloaded 70% 90%

NET resource

Item Description Orange Red
Lost packets Number of lost network packets 1 5

Direction of the arrow

Arrow Points Description
arrow1 arrow1 Autant de points dépassent le seuil rouge, sur la période A que sur la période B, cela donne une flèche horizontale.
arrow1 arrow1 Aucun point ne dépasse le seuil rouge donne une flèche horizontale
arrow1 arrow1 Moins de points dépassent le seuil rouge sur la période B que sur la période A, cela donne une flèche descendante.
arrow1 arrow1 Au moins 5 % des points, dépassant le seuil rouge, en plus sur la période B donne une flèche ascendante. Plus l’écart du nombre de points est important entre les 2 périodes plus l’angle d’inclinaison de la flèche est grand.

Color of the arrow

La couleur indique si la VM a plus ou moins dépassé des seuils de bonnes pratiques (cf. seuils de bonnes pratiques) sur la fin de la période d’analyse. - rouge & orange : seuils dépassés - vert : en dessous des seuils

Pour chaque ressource (cpu, disque et réseau) on compte le nombre de points qui dépassent les seuils fixés sur le critère rouge et orange pour les 5 derniers pour-cent de la période d’analyse (période C). Si X% des points totaux sont rouges sur la période C alors la couleur est rouge sinon si Si X% des points totaux sont oranges sur la période C alors la couleur est orange sinon la couleur est verte. Les schémas ci-dessous illustrent la couleur :

Arrow Points Description
arrow1 arrow1 La zone C correspond au 5 derniers % de la période totale (A +B) d’analyse .20 points au total sur toute la période d’analyse. 2 points rouges dans la période C soit 5 % des points totaux. La couleur est donc rouge.
arrow1 arrow1 10 points au total et dépassant le seuil orange mais pas le seuil rouge sur toute la période d’analyse. 2 points dans la période C soit 20 % des points totaux. La couleur est donc orange et tous les points sont dans la zone B ce qui donne une inclinaison maximale.
arrow1 arrow1 30 points au total et dépassant le seuil orange sur toute la période d’analyse. 1 seul point dans la période C soit 3,3 % des points totaux. La couleur est verte..
arrow1 arrow1 30 points au total et dépassant le seuil orange sur toute la période d’analyse. Aucun pointdans la période C. La couleur est verte.
arrow1 arrow1 50 points au total. 3 et 5 points dépassant respectivement les seuils rouge et orange soit 6 % et 10 % dans la période C. La couleur est donc rouge (prioritaire sur le orange).

A noter le seuil pour la zone C est paramétrable (par défaut à 5%), il permet d’ajuster l’affichage des VM très critiques sur la fin de période

Troubleshooting use case

1 - Un clique sur dégradation fait ressortir les VM concernées par cet état, elles sont donc rouges et en dégradation.

2 - Il est possible d’en savoir plus, en cliquant sur la VM voulu et détécter d’où vient le problème..

3 - Dans ce cas, le problème provient du CPU. Pour l’identifier clairement, cliquer dessus.

troubleshooting5

Cliquer sur la courbe pour obtenir plus de détails et zoomer sur les points, obtenir les MIN, MAX, MOY....

troubleshooting6