Vérifier les données

La réalisation d’une étude de benchmarking est un processus itératif. Après avoir rassemblé les données brutes, l’équipe de benchmarking doit soigneusement vérifier les données, afin de s’assurer que la qualité et la quantité d’information recueillie satisfont bien aux exigences qui permettront de réussir le projet. Ce processus est crucial pour l’étude. En effet, une pauvre qualité de données (définitions incohérentes, données manquantes ou valeurs extrêmes de données) peut conduire à des résultats biaisés. Une attention particulière devra notamment être apportée aux aspects suivants lors de la vérification des données brutes et de leur qualité :

  • Données manquantes
  • Précision et comparabilité des fichiers de données

Après avoir vérifié les données, l’équipe de benchmarking peut compiler l’ensemble de données benchmarking. Cependant, il se peut que la taille de l’échantillon ne soit pas assez large pour permettre la mise en œuvre d’une analyse sophistiquée. Quand la taille de l’échantillon est trop petite, les analystes devront peut-être travailler à accroître la taille de l’échantillon – soit en utilisant des données de panel soit en effectuant du benchmarking international (inter-régional).

Données manquantes

Le manque de données est une problématique courante qui peut poser un problème sérieux pour la qualité de l’étude de benchmarking, pour les raisons suivantes.

  • Taille de l’échantillon: le manque de données réduira la taille de l’échantillon. Comme cela a été mentionné ci-dessus, une taille raisonnable d’échantillon est nécessaire pour utiliser des modèles sophistiqués de benchmarking de frontière.
  • Omissions de données non-aléatoires: les données manquantes sont peut-être distribuées de façon non-aléatoire. Par exemple, les fournisseurs de données (les compagnies) peuvent avoir oublié par inadvertance de fournir des données (il s’agit alors d’omissions de données distribuées de façon aléatoire) ou ils peuvent avoir intentionnellement omis de fournir les données (il s’agit alors d’omissions non-aléatoires de données). Les omissions non-aléatoires de données influeront sur les inférences statistiques car l’échantillon observé sera un échantillon réduit de l’échantillon réel.

Remèdes: il y a trois façons de remédier au problème des données manquantes :

  • Supprimer les observations qui prennent comme variables des valeurs manquantes, ce qui aura pour effet de réduire la taille de l’échantillon ;
  • Estimer (attribuer) les valeurs manquantes en utilisant les observations existantes puis utiliser les valeurs estimées dans l’analyse des données, ce qui peut être inapproprié si les omissions de données ne sont pas aléatoires.
  • Demander à la compagnie de fournir les données manquantes.

Précision et comparabilité des fichiers de données

Avant de passer à l’analyse statistique formelle, il est utile d’effectuer des vérifications préliminaires des données du fichier informatique :

  • Réduire les erreurs de saisie de données: comparer l’ensemble informatique de données avec l’ensemble de données originales afin de s’assurer que les données ont été correctement saisies.
  • Préparer des statistiques sommaires: les statistiques sommaires comprennent la médiane moyenne, l’écart-type et les valeurs minimum et maximum des variables-clés. Sur la base des statistiques sommaires, les analystes doivent s’assurer que les compagnies qui font partie de l’échantillon sont réellement comparables l’une à l’autre. Par exemple, la compagnie A est-elle réellement comparable à la compagnie B qui est 100 fois plus grande que A ?
  • Calculer les ratios-clés: préparer des statistiques sommaires pour les ratios-clés, tels que l’eau fournie/employé et OPEX/eau fournie (OPEX = coûts d’exploitation). Attention aux compagnies qui ont des ratios très grands ou très petits. Il y a peut-être des erreurs de saisie de données pour ces compagnies, ou bien elles ont peut-être des structures organisationnelles différentes (par exemple, recours à l’externalisation),
  • Vérifier la comparabilité des définitions de données: vérifiez les définitions des variables-clés afin de vous assurer qu’elles sont réellement comparables. Par exemple, le nombre d’employés correspond-il au nombre d’employés à plein temps, à temps partiel ou au nombre total d’employés ? La définition du coût d’exploitation est-elle similaire d’une compagnie à l’autre ? Dans certains cas, le nombre de clients peut ne pas être une bonne variable de résultat, en raison de différences significatives dans la continuité de service. A titre d’exemple, disons que le nombre de clients de la compagnie A est 1 000 et la durée moyenne de service est de 4 heures/jour, et que le nombre de clients de la compagnie B est 600 et la durée moyenne de service est de 24 heures/jour. Dans ce cas, le nombre de clients corrigé (afin de refléter les heures de service) est peut-être une meilleure mesure, selon la structure du modèle.
  • Reconnaître des événements ou caractéristiques uniques: certains événements particuliers, tels que des catastrophes naturelles, peuvent avoir un impact significatif sur les indicateurs de coûts d’exploitation et de qualité de service. Si l’impact est important, il est préférable d’exclure de l’échantillon l’observation, pour l’année en question. De même, une compagnie située près d’une source d’eau et une autre qui a besoin d’importants investissements en moyens de stockage et en transport d’eau auront des coûts très différents. De telles différences doivent être intégrées dans l’analyse.
Рейтинг@Mail.ru Free counters!