lunes, 5 de noviembre de 2018

En busca del coche perfecto (IV)

Terminado el análisis de datos exploratorio podemos empezar a calcular qué coche es el mejor. Empezaremos con soluciones intuitivas e iremos refinando nuestro sistema hasta llegar a un sistema con cierta solvencia matemática. Para nuestras explicaciones utilizaremos un puñado de coches y solo consideraremos unas pocas características, ya que eso hará más fácil seguir el razonamiento.

Recordemos nuestra pregunta original. Dado un conjunto de coches ¿cuál es el mejor? En la primera parte de esta serie de artículos dijimos que «el mejor» es aquel que satisface todas nuestras necesidades y preferencias. En este caso buscamos un coche potente con un consumo bajo, bien equipado, seguro y barato. Con esta definición en mente veamos cual sería la mejor opción entre estos vehículos:

Coche CV Consumo combinado Equipamiento Equipamiento de seguridad Precio
Ford Focus Trend 100 4,9 20 12 19.575
Mazda 3 Evolution 120 5,1 31 10 21.915
Seat León Xcellence Plus 150 5,1 36 12 25.610
Renault Megane GT Line 160 5,5 23 8 26.890
Honda Civic Prestige 182 5,8 45 15 28.850
Opel Astra GSiLine 200 6,2 37 15 28.418

El Ford Focus es el más barato pero también es el menos potente y menos equipado. El Opel Astra es el más potente pero es el segundo más caro y no es el más equipado, además de ser el que más combustible gasta. El Honda Civic es bastante potente y el que mejor equipado está pero es el más caro. El Mazda 3 y el Seat León se mueven en zonas intermedias. Vamos a tratar de elaborar un ranking para dilucidar cuál cubre mejor nuestras demandas.

La primera idea que se me ocurre para crear la tabla de clasificación es asignar puntos. Podemos empezar, por ejemplo, por asignar un punto al coche que sea mejor en potencia, otro punto al que tenga mejor equipamiento, otro al que tenga mejor consumo y otro al que tenga el mejor precio. Después los sumamos todos y el que más puntos tenga sería el mejor. En nuestro caso quedaría así:

Coche CV Consumo combinado Equipamiento Equipamiento de seguridad Precio Puntos
Ford Focus Trend 0 1 0 0 1 2
Mazda 3 Evolution 0 0 0 0 0 0
Seat León Xcellence Plus 0 0 0 0 0 0
Renault Megane GT Line 0 0 0 0 0 0
Honda Civic Prestige 0 0 1 1 0 2
Opel Astra GSiLine 1 0 0 1 0 2

Tenemos un triple empate, lo cual no nos ayuda demasiado. Si tuviéramos en cuenta más características quizá lograríamos deshacer el empate pero seguiríamos tendiendo un problema: este sistema favorece los extremos, ya que solo se obtiene un punto cuando se está por encima o por debajo de todos los demás. Dado que lo que buscamos es un equilibrio entre distintos factores no parece que este método sea el adecuado porque nuestra respuesta, probablemente, ande por la zona media. Supongamos, verbigracia, que tenemos estos tres coches:

Coche CV Consumo combinado Equipamiento Equipamiento de seguridad Precio Puntos
Coche A1507,0201022.0003
Coche B1406,019921.0000
Coche C1005,510520.0002

Según esto deberíamos descartar el coche B pero, si observamos detenidamente, veremos que el coche B parece la opción más acertada: no es el mejor en nada pero está muy cerca de los que sí lo son.

La forma en que suele resolverse el problema anterior es repartiendo puntos. Por ejemplo, en los mundiales de motociclismo y automovilismo se otorga un número de puntos al ganador de cada carrera, unos pocos menos al segundo clasificado, menos aún al tercero, etcétera. De esta forma se evita que un piloto que ha ganado cuatro carreras y no ha corrido las quince restantes se proclame campeón frente a alguien que ha quedado segundo en todas las carreras.

Probemos esta solución. Vamos a usar una escala del cero al diez para cada atributo, siendo diez el valor perteneciente al mejor dato en la escala de ese atributo y cero el valor correspondiente al peor dato en la escala. Obsérvese que el diez no siempre corresponde al valor más alto pues hay atributos (precio, consumo) que nos interesa que sean lo más pequeñas posibles. En nuestro caso tendríamos:

Puntos CV Consumo combinado Equipamiento Equipamiento de seguridad Precio
01006,220828.850
102004,9451519.575

Por lo que nuestra clasificación quedaría así:

Coche CV Consumo combinado Equipamiento Equipamiento de seguridad Precio Total
Ford Focus Trend 0 10 0 6 10 26
Mazda 3 Evolution 2 8 4 3 7 25
Seat León Xcellence Plus 5 8 6 6 3 29
Renault Megane GT Line 6 5 1 0 2 14
Honda Civic Prestige 8 3 10 10 0 31
Opel Astra GSiLine 10 0 7 10 0 27

Con este nuevo sistema el campeón es el Honda Civic Prestige, seguido del Seat León Xcellence y el Opel Astra GSiLine. El peor sería el Renault Megane GT Line.

Parece un buen sistema pero, como decía el señor Lobo en Pulp Fiction, no empecemos todavía con las felaciones mutuas. Examinemos detenidamente la columna de los caballos de potencia. ¿No ven algo raro?

Coche CV Puntos correspondientes
Ford Focus Trend1000
Mazda 3 Evolution1202
Seat León Xcellence Plus1505
Renault Megane GT Line1606
Honda Civic Prestige1828
Opel Astra GSiLine20010

El Opel Astra tiene el doble de puntos que el Seat León en lo que a potencia se refiere pero, en realidad, solo tiene un treinta y tres por ciento más de caballos que este último. Similarmente, el Renault Megane tiene tres veces más puntos de potencia que el Mazda 3 aun cuando el primero solo tiene un treinta y tres por ciento más de caballos que el segundo. No parece que eso sea correcto.

La aberración detectada se debe a la normalización mínimo-máximo que empleamos para escalar los valores a un valor entre cero y diez. Esta normalización tiene un problema adicional, a saber, que comprime la distancia entre los valores de manera que los valores atípicos son atenuados. En la práctica esto significa que si un coche es muchísimo más barato o muchísimo más eficiente que los demás su puntuación no reflejaría este hecho en toda su magnitud.

Vamos a intentar solventar los inconvenientes mencionados utilizando otro método de normalización, el llamado z-score. Este método transforma los datos a una distribución con media 0 y desviación estándar 1. Si un coche es mejor que la media en equipamiento tendrá un valor superior a 0. Si, por el contrario, tiene peor equipamiento que la media, su puntuación será un número negativo. La ventaja de este procedimiento es que se preservan tanto el rango como la dispersión de la serie por lo que los datos atípicos se verán reflejados de forma fiel.

Para que los datos de media y desviación estándar sean mínimamente fiables se necesitan al menos treinta observaciones por lo que si queremos usar z-score tendríamos que trabajar con, al menos, treinta vehículos. Sin embargo, vamos a simplificar y continuar con nuestros seis compactos. Recordemos, además, que para el consumo y el precio tenemos que cambiar el signo porque cuanto menores son estos valores más puntos se ganan.

Así pues, la clasificación usando z-score como método de normalización queda así:

Coche CV Consumo combinado Equipamiento Equipamiento de seguridad Precio Puntos
Ford Focus Trend -1,28 -1,04 -1,16 0,02 -1,45 0,07
Mazda 3 Evolution -0,75 -0,63 0,02 -0,15 -0,82 0,58
Seat León Xcellence Plus 0,06 -0,63 0,56 0,02 0,17 1,10
Renault Megane GT Line 0,32 0,17 -0,84 -0,32 0,52 -1,52
Honda Civic Prestige 0,91 0,78 1,52 0,28 1,04 0,89
Opel Astra GSiLine 1,39 1,58 0,66 0,28 0,93 -0,17

De acuerdo con esta clasificación el título de «mejor coche» va a parar al Seat León, seguido del Honda Civic y del Mazda 3. El peor clasificado vuelve a ser el Renault Megane.

Continuará.