lunes, 22 de octubre de 2018

En busca del coche perfecto (III)

La siguiente parada en nuestro viaje es el análisis bivariable, es decir, comparar los valores de unas características con otras. Mediante el examen simultáneo de dos atributos podremos comprobar si existe una asociación entre ellos y la fuerza de dicha asociación. También podremos comprobar qué diferencias hay entre las dos variables, así como su importancia. En este paso ya es posible empezar a poner a pruebas nuestros prejuicios y conjeturas.

Por ejemplo, ¿los coches más potentes son más caros? El saber común dicta que sí pero comprobemos si es cierto:


Vemos un correlación positiva moderada tirando a fuerte entre ambas variables, de manera que algo de verdad hay en nuestra hipótesis. Sin embargo, muchos puntos caen fuera de las bandas de confianza (de color gris) lo que significa que hay más factores que influyen en el precio.

Parece de suyo evidente que uno de tales factores sea el equipamiento. ¿Hasta qué punto es así?


Encontramos otra vez una correlación positiva moderada lo que significa, de nuevo, que nuestra hipótesis es verdadera en cierto grado. Sin embargo, la correlación entre equipamiento y precio es menor que la que hemos visto antes entre precio y potencia de lo que se deduce que, en lo que a coste se refiere, importa más la potencia del motor que el equipamiento.

En los gráficos anteriores se puede observar que para la misma potencia o cantidad de equipamiento hay precios diferentes. ¿A qué puede deberse esto? La primera respuesta que nos viene a la mente seguramente sea la marca ya que hay fabricantes cuyos automóviles, a igualdad en el resto de atributos, son más caros que el resto. ¿Cuáles son las marcas más caras y las más baratas? (clic para ampliar)


Skoda es, con diferencia, la marca más asequible mientras que Mercedes es la maś costosa, seguida de cerca por Infiniti. Cuando modelemos el precio utilizando regresión lineal veremos cuántos euros extra hay que abonar por cada una de estas marcas de lujo.

Más sabiduría convencional que podemos poner a prueba. ¿Los coches más potentes consumen más gasolina?

La respuesta es sí pero la correlación es débil. ¿Será que en el gasto de combustible influye más el peso que la potencia del motor?

Efectivamente, en lo que a consumo se refiere, el peso del vehículo importa más que la sus caballos.

Otra pregunta. ¿Es el precio del seguro más caro cuanto más caro es el coche?

Parece que sí pero no es una correlación fuerte. En realidad, como podemos ver a continuación, en el coste del seguro influye mucho más la potencia.



De todas las correlaciones existentes entre las variables las más fuertes son la que hay entre consumo combinado y emisiones de dióxido de carbono (0,92) y la existente entre potencia y velocidad máxima (0,85). No hay relación entre equipamiento y consumo extraurbano, ni entre el peso y la anchura del vehículo. La correlación negativa más grande es entre velocidad máxima y tiempo de aceleración de cero a cien kilómetros por hora y entre velocidad máxima y potencia. Es decir que, tal como era de esperar, los motores más potentes tardan menos en alcanzar los cien kilómetros hora.

Continuará.

lunes, 15 de octubre de 2018

En busca del coche perfecto (II)

Una vez hemos recopilado la información necesaria el siguiente paso es hacer un análisis de datos exploratorio. En román paladino esto significa familiarizarnos con los datos que tenemos, descubrir patrones y detectar anomalías, así como verificar nuestras suposiciones. Así pues, allá vamos.

Nuestro conjunto de datos consta de 102 coches definidos por 22 variables o características. La siguiente tabla muestra la información básica que necesitamos conocer acerca de estas últimas:

Variable Significado Unidad de medida
CocheIdentificador del vehículo (marca, nombre, acabado y, a veces, potencia)Texto
AcabadoNivel de acabado o versión, siendo 1 el más baratoNúmero entero positivo
CV Potencia del motorCaballos de vapor
CC CilindradaCentímetros cúbicos
Consumo urbanoConsumo urbano según el ciclo NEDCLitros por cada 100 kilómetros
Consumo extraurbanoConsumo extraurbano según el ciclo NEDCLitros por cada 100 kilómetros
Consumo combinadoConsumo en ciclo combinado según el ciclo NEDCLitros por cada 100 kilómetros
EmisionesEmisiones de dióxido de carbonoGramos por kilómetro
VmaxVelocidad máximaKm/h
AceleraciónAceleración de 0-100 Km/hSegundos
Par máximoPar máximo del motorNewtons/metro
PesoPeso en orden de marchaKilogramos
LongitudLongitudCentímetros
AnchuraAnchuraCentímetros
AlturaAlturaCentímetros
MaleteroCapacidad del maleteroLitros
MarcaFabricante del cocheTexto
EquipamientoNúmero de elementos de equipamiento no relacionados con la seguridad (por ejemplo, apoyabrazos, asientos calefactables), excluyendo aquellos que son comunes a todos los vehículos registradosNúmero entero positivo
Equipamiento seguridadNúmero de elementos de equipamiento relacionados con la seguridad (airbags, control de estabilidad o de frenada, sistemas de conducción autónoma, etcétera), excluyendo aquellos que son comunes a todos los vehículos registradosNúmero entero positivo
PrecioPrecio de venta recomendado según web del fabricante, sin descuentosEuros
Oferta posibleEl mejor precio que, en teoría, puede encontrarse en concesionariosEuros
SeguroPrima anual de un seguro a todo riesgo con franquiciaEuros

Primero hemos de estudiar cada una de una de estas variables por separado. Para ello nos serviremos, en lo que a variables numéricas se refiere, de técnicas estadísticas básicas como medias, cuartiles, medianas y desviación estándar. Para las variables de tipo texto usaremos una tabla simple. En ambos casos recurriremos a gráficos (histogramas y diagramas de caja) para ver mejor qué estamos manejando.

Comencemos echando un vistazo a cuántos coches tenemos de cada marca. Tengamos presente que se ha registrado cada combinación de acabado y motor disponible que satisface los criterios mencionados en el artículo anterior.




Alfa Romeo 5
Audi 4
BMW 2
Fiat 4
Ford 5
Honda 6
Hyundai 5
Infinity 2
Kia 10
Mazda 4
Mercedes 2
Opel 6
Peugeot 6
Renault 7
Seat 14
Skoda 5
Volkswagen 9
Volvo 7
Vemos que SEAT y Kia son las marcas que más variedad ofrecen, con catorce y diez modelos  respectivamente. En el lado opuesto, Infinity solo vende un motor de transmisión manual con dos acabados diferentes.

Examinemos ahora la potencia de los motores en nuestra base de datos.



Mínimo100
Primer cuartil116
Mediana125
Media128.8
Tercer cuartil140
Máximo200
Desviación estándar18.93915
Podemos observar que la potencia media ronda los 130 CV, y que la mayoría de los coches que tenemos registrados están entre 110 y 150 CV. El diagrama de caja muestra dos registros que se salen de lo normal, lo cual podría indicar un error en la grabación de los datos. Afortunadamente, no es el caso: esos puntos corresponden a las versiones del Honda Civic con motores de 186 CV y una versión del Opel Astra que tiene 200 CV.

A continuación, centrémonos en el precio.

Salta a la vista que hay tres grupos distintos: uno de coches baratos entre 15.000 y 17.000 euros, el grupo principal, cuyos precios se mueven entre los 18.000 y los 29.000 euros, y otro que seguramente corresponda a las marcas más exclusivas, con importes que parten de los 30.000 euros. El precio medio es 23.701 euros, situándose el grueso entre los 21.046 y los 26.552 euros.

Mínimo15701
Primer cuartil21046
Mediana23470
Media23701
Tercer cuartil26552
Máximo31575
Desviación estándar3681.217
Como decía al principio, hay que repetir este proceso para cada variable pero, por razones de tiempo y espacio, vamos a detenernos aquí. Nuestro coche medio sería así:

Acabado3
Aceleración 0-100 km/h9.72
Altura1500
Anchura1798
CC1342
CV128
Consumo combinado5.3
Consumo extraurbano4.6
Consumo urbano6.5
Emisiones123
Equipamiento de seguridad10
Equipamiento30
Longitud4341
Maletero387
Oferta posible20703
Par máximo212
Peso1296
Precio23701
Velocidad máxima202


Obviamente, este coche no existe como tal pero esta información nos será útil más adelante cuando tratemos de entender el precio de los automóviles.

Continuará.

lunes, 1 de octubre de 2018

En busca del coche perfecto (I)

Si van a ser compradores maximizadores más les vale tener un sistema para navegar por el maremágnum de opciones disponibles, un método que les permita analizar los datos y guiarles en la toma de decisiones. Voy a compartir el mío con ustedes.

Hay quien confía en su instinto para decidir y le va bien. Por desgracia para mí, yo no tengo ningún sexto sentido y no me fío en absoluto de mis corazonadas por lo que prefiero basarme en números. El sistema que voy a mostrar consiste, a grandes rangos, en encontrar una ecuación cuyo resultado muestre cual es la mejor elección. Como beneficio adicional, en el proceso entenderemos por qué los números no son hechos fríos y objetivos.

Quizá mi sistema les parezca excesivamente laborioso pero, en realidad, no es más que la versión rigurosa de lo que la mayoría hacemos: ver las alternativas a nuestra disposición y compararlas. Si no están interesados en los detalles, he aquí la versión resumida:
$$puntos = {a1 \cdot a2 \cdot ... \cdot aN \over b1 \cdot b2 \cdot ... \cdot bN}$$
donde a1, a2... aN son las características que cuanto mayores sean, mejor (por ejemplo, espacio en el maletero, nivel de equipamiento, etcétera), y b1, b2... bN son aquellas que cuanto mayores sean, peor (por ejemplo, el precio). Así pues, dados estos tres coches:

CocheCVMaleteroPrecio
Coche 1 120 380 15000
Coche 2 130 370 15500
Coche 3 129 400 18000

calculamos sus puntuaciones respectivas

CochePuntuación
  Coche 1   120*380/15000 = 3.04
  Coche 2   130*370/15500 = 3.10
  Coche 3   129*400/18000 = 2.86

y concluimos que el coche 2 es el mejor. Si quieren saber por qué esto es así (¿por qué multiplicar en lugar de sumar?) y cómo puede mejorarse (¿qué pasa si unas características nos importan más que otras?) sigan leyendo.

Entremos en materia recordando nuestro objetivo: encontrar el coche perfecto. Para ello, lo primero que debemos hacer es definir qué entendemos por «perfecto». Como definición de trabajo, diremos que el coche perfecto es aquel que satisface todas nuestras necesidades. De esta definición se deduce que «perfecto» tiene significados distintos para cada persona, pues cada individuo (o el mismo individuo en momentos distintos) tiene necesidades diferentes. Por ejemplo, cuando compré mi primer coche mi definición de perfección incluía cualidades tales como «barato», «pequeño», «seguro» y «eficiente». Ahora mismo, sin embargo, además de seguro ha de ser espacioso, tener cierto nivel de equipamiento, poseer cierta potencia para viajar cómo por la carretera y mostrar una excelente relación calidad-precio.

Una vez aclarado lo que entendemos por «perfecto» lo siguiente es conocer nuestros gustos y preferencias para poder reducir el espacio de búsqueda. No es un paso estrictamente necesario, pues teóricamente podemos reunir información de todas las opciones que hay y compararlas, pero esto tiene algunas desventajas. En primer lugar, cuantas más alternativas podamos descartar de entrada menos tardaremos en recopilar los datos necesarios. Por otra parte, para que las comparaciones sean justas hay que hacerlo entre iguales, esto es, comparar «manzanas con manzanas» y no «manzanas con naranjas». De no hacerlo así corremos el riesgo de bloquearnos al no poder decidir entre alternativas que no son comparables. Por ejemplo, supongamos que nuestra ecuación muestra que los tres mejores automóviles son un compacto blanco, un SUV negro y una berlina con cambio automático. Si todos tienen la misma puntuación y no tenemos preferencia por un color, carrocería o tipo de transmisión ¿cómo deshacer el empate?

En mi caso, tenía claro que quería un coche compacto, lo que deja fuera gran parte de la oferta de automóviles actual (SUVs, coches con carrocería familiar, todoterrenos, etcétera). Tampoco he dudado acerca de qué tipo de combustible usar (gasolina) ni el tipo de transmisión (manual). Finalmente, he circunscrito mi búsqueda a vehículos de entre cien y doscientos caballos de potencia.

Estas restricciones han reducido el conjunto de opciones a explorar a poco más de cien coches. Una lista tan larga tiene como ventaja que las conclusiones que extraigamos del análisis de datos serán más fiables. Como contrapartida, nos llevará más tiempo y energía reunir todos esos datos que si nuestra búsqueda fuera aún más restringida.

Es de obligado cumplimiento explicar cómo se han obtenido los datos. Para confeccionar nuestra pequeña base de datos (la pueden descargar aquí) he visitado las páginas web de cada marca y registrado los modelos disponibles del segmento C con motores de gasolina, caja de cambio manual, potencia entre cien y doscientos caballos y carrocería hatchback de cinco puertas.

Para los datos de equipamiento y dimensiones me he basado en la información disponible en www.km77.com (aplicando las correcciones oportunas según la información oficial en algunos casos). Para calcular el precio del seguro he usado www.arpem.com. Los datos de prestaciones han sido obtenidos de la página del fabricante. Cuando no estaban disponibles, he usado los de www.km77.com y, cuando aquí tampoco aparecían, los de www.cochesyconcesionarios.com.

Para cada vehículo he grabado dos precios. Uno es el precio de venta recomendado en la página web de la marca, sin descuentos. El otro es la oferta que (en teoría) puede encontrarse en concesionarios según la página www.cochesyconcesionarios.com entregando un coche usado. Cuando era inferior he usado el precio recibido a través de www.carnovo.com, un servicio recién descubierto por mi parte que permite obtener gratuitamente ofertas de concesionarios oficiales.

Continuará.