Statistique

Un catalogue de référence doit offrir les paramètres statistiques des trois valeurs les plus documentées : poids, module et position des coins. Pour cela, un outil d'analyse dynamique a été développé pour afficher les paramètres statistiques de ces trois blocs de données, car il s'agit d'un catalogue ouvert, avec une augmentation annuelle significative de nouvelles monnaies frappées dans différentes mints.
 
L'outil d'analyse affiche :
 
Les diagrammes en violon et les diagrammes en boîte de tous les types de chaque mintage dans une séquence continue ; le diagramme en violon du type sélectionné est affiché ci-dessous, en cliquant sur l'un d'eux.
Lors de la navigation dans le catalogue, la fenêtre qui décrit un type individuel, et affiche les copies documentées, inclut toujours à la fin de la page un résumé statistique du type.
 
Parmi les différentes représentations statistiques existantes pour afficher graphiquement un ensemble de données, nous avons choisi le modèle de diagramme en violon (violin plot), combiné avec le diagramme en boîte, qui marque certaines statistiques résumées spécifiques, bien que pas très différentes d'un diagramme en boîte (box plot).
 
Un diagramme en violon est une combinaison d'un diagramme en boîte et d'un diagramme de densité de noyau. Plus précisément, il commence par un diagramme en boîte. Ensuite, il ajoute un diagramme de densité du noyau tourné de chaque côté du diagramme en boîte. Les deux peuvent être vus séparément. Dans ce type de représentation, la largeur du diagramme est proportionnelle au nombre de points de données dans cette section de l'échantillon. Un graphique de densité de noyau peut être considéré comme un raffinement d'un histogramme ou d'un graphique de fréquence. Le diagramme de densité KERNEL estime la fonction de densité de probabilité sous-jacente et la fonction de distribution cumulative (cdf), qui présente une approximation lissée de l'échantillon de données utilisé.
 
Comment lire nos diagrammes ?
 

Nos diagrammes combinent les représentations de violin plot et box plot.
 
Dans la représentation box plot :
 

  1. Le point blanc représente la médiane.
     

  2. La boîte rouge au centre représente l'intervalle interquartile. Les quartiles sont les valeurs qui divisent une liste de nombres en quartiles. "L'intervalle interquartile" s'étend de Q1 à Q3.
     

  3. Les moustaches représentent la partie de la distribution non couverte par la boîte, à l'exception de 20 % des données. 30 % de toutes les données de la distribution, celles qui se situent entre les percentiles 75 et 90 et entre 10 et 25, se trouvent à l'intérieur des moustaches. Les moustaches sont reliées à la boîte, mais leur longueur couvre jusqu'aux percentiles 10 et 90, laissant la partie la plus externe de la distribution de l'échantillon sans couverture. Bien sûr, les moustaches supérieures et inférieures peuvent différer en longueur. Dans cette représentation, les moustaches sont dessinées en lignes solides.
     

  4. Les parties non couvertes par les moustaches correspondent aux valeurs aberrantes représentées par des points.
     

Sous le box plot, le diagramme en violon est représenté. De chaque côté de la boîte rouge, il y a une estimation de la densité de noyau pour afficher la forme de la distribution des données, où il y a plus de poids. Les sections les plus larges du diagramme en violon représentent une plus grande probabilité que les poids et les modules soient inclus dans ces valeurs ; les sections les plus étroites représentent une moindre probabilité.
 
Le type de diagramme et sa forme peuvent être choisis en dépliant le panneau de contrôle, qui permet de personnaliser la représentation. Deux types de graphiques statistiques ont été développés ; les diagrammes en boîte (box plot) sont superposés aux violin plots, mais peuvent également être vus séparément. Les lignes marquant les poids facilitent la lecture. Il est également possible de varier la largeur des boîtes et des violins, et d'afficher/masquer divers composants (moustaches et outliers). Dans le cas des violins, huit modes de représentation peuvent être choisis, basis, Bump-Y...
 
Les diagrammes servent également à détecter les erreurs dans l'introduction des données, car elles apparaissent dans les diagrammes comme des valeurs extrêmement aberrantes. Il arrive parfois que le point décimal ne soit pas bien saisi, ou que des modules aient été saisis en centimètres au lieu de millimètres.
Références :
https://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/violplot.htm
https://matplotlib.org/1.4.0/users/whats_new.html#violin-plots
https://root.cern/doc/master/classTHistPainter.html#HP140b
https://www.mathsisfun.com/data/quartiles.html
https://en.wikipedia.org/wiki/Violin_plot