La realización de un estudio de comparación es un proceso iterativo. Luego de reunir datos sin procesar, el equipo de comparaciones debería revisarlos cuidadosamente a efectos de asegurarse de que tanto la calidad como la cantidad de la información que se está recopilando cumplan con los requisitos que permiten la ejecución exitosa del proyecto. Este proceso es de vital importancia para el estudio dado que la mala calidad de los datos (definiciones inconsistentes, datos faltantes o valores extremos) puede generar resultados sesgados. Específicamente, al investigar datos sin procesar y su calidad debe prestarse atención a los siguientes aspectos:
- Datos Faltantes
- Precisión y Comparabilidad de los Archivos de Datos
Luego de investigar los datos, el equipo de comparaciones puede organizar la base de datos de comparación. No obstante, es posible que la muestra no tenga el tamaño necesario para utilizar análisis sofisticados. Si el tamaño de la muestra es demasiado pequeño, es posible que el analista deba trabajar para expandir su tamaño, ya sea mediante la utilización de datos en panel o la realización de comparaciones internacionales (de varias regiones).
Datos faltantes
Tamaño de la muestra: los datos faltantes reducen el tamañode la muestra. Como se mencionaanteriormente, es necesario un tamaño de muestra razonable para realizarmodelos de comparación sofisticados.Los datos faltantes son un problema común que puedeocasionar distorsiones en la calidad del estudio de comparación por lassiguientes razones:
- Datos faltantes no aleatorios: los datos faltantes puedenestar distribuidos de forma no aleatoria. Por ejemplo, los proveedores de datos (las empresas de servicio) puedenhaberse olvidado de forma accidental de proveer los datos (datos faltantesdistribuidos aleatoriamente) o la pueden haber omitido de forma intencionada(i.e. datos faltante no aleatorios). Los datos faltantes no aleatorios influencian lasinferencias estadísticas porque la muestra observada es una muestra reducida dela muestra verdadera.
- Remedios: existen tres maneras de corregir el problema dedatos faltantes:
- Borrar las observaciones con valores faltantes par alasvariables, con el efecto que esto supone una reducción del tamaño de muestra;
- Estimar los valores faltantes utilizando observacionesexistentes y luego utilizar los datos estimados en el análisis de datos, cosaque puede resultar inapropiada cuando los datos faltantes no son aleatorios.
Preguntar a la empresa de servicios los datos faltantes.
Precisión y comparabilidad de los archivos de datos
Antes de realizar un análisis formal estadístico, es de granutilidad realizar pruebas preliminares sobre los datos en el archivo:
- Reducir los errores de entrada de datos: comparar elconjunto de datos computado con el conjunto de datos originales para asegurarseque han sido entrados correctamente.
- Preparar estadísticas de resumen: las estadísticas deresumen incluyen el promedio, la mediana, la desviación estándar, los valoresmínimos y máximos para las variables principales. En base a las estadísticas deresumen, los analistas deben asegurarse que las empresas de servicios de lamuestra son realmente comparables entre sí. Por ejemplo, ¿puede la empresa de servicios A ser realmentecomparable con la B, que es 100 veces mayor?
- Calcular los ratios principales: preparar estadísticas deresumen para los ratios principales tales como el agua entregada portrabajador, y OPEX/agua entregada. Preste atención a empresas con ratios extremos muy grandes y pequeños. Pueden existir errores en la entrada dedatos para estas empresas o pueden tener distintas estructuras organizativas(por ejemplo outsourcing).
- Asegurar la comparabilidad de las definiciones de datos: comprobar las definiciones de datos de las variables principales paraasegurarse que son realmente comparables. Por ejemplo, ¿el número de trabajadores se refiere a trabajadores atiempo completo, a tiempo parcial, o total de trabajadores? ¿Los costes operativos se definen deigual manera entre las empresas? En algunos casos, el número de clientes puedeno ser una variable de salida buena debido a las diferencias significativas enla continuidad de los servicios. Por ejemplo, el número de clientes de la empresa A es 1000 y el tiempode servicio promedio es 4 horas por día. La empresa B tiene 600 clientes con un tiempo de servicio promedio de 24horas por día. En este caso, elnúmero ajustado de clientes (que refleja las horas de servicio) puede ser unamedida de salida mejor, dependiendo de la estructura del modelo.
- Reconozca los eventos únicos o característicos: algunoseventos especiales como desastres naturales pueden tener un impacto en loscostes de operación e indicadores de calidad de servicio. Si el impacto es severo, es mejorexcluir la observación de la muestra en ese año. De forma similar, una empresa de servicios localizada cercade una fuente de agua y otra que requiere inversiones sustantivas paraalmacenar y transportar el agua tendrán distintos costes. Estas diferencias deben incorporarse enel análisis.