lunes, 15 de octubre de 2018

En busca del coche perfecto (II)

Una vez hemos recopilado la información necesaria el siguiente paso es hacer un análisis de datos exploratorio. En román paladino esto significa familiarizarnos con los datos que tenemos, descubrir patrones y detectar anomalías, así como verificar nuestras suposiciones. Así pues, allá vamos.

Nuestro conjunto de datos consta de 102 coches definidos por 22 variables o características. La siguiente tabla muestra la información básica que necesitamos conocer acerca de estas últimas:

Variable Significado Unidad de medida
CocheIdentificador del vehículo (marca, nombre, acabado y, a veces, potencia)Texto
AcabadoNivel de acabado o versión, siendo 1 el más baratoNúmero entero positivo
CV Potencia del motorCaballos de vapor
CC CilindradaCentímetros cúbicos
Consumo urbanoConsumo urbano según el ciclo NEDCLitros por cada 100 kilómetros
Consumo extraurbanoConsumo extraurbano según el ciclo NEDCLitros por cada 100 kilómetros
Consumo combinadoConsumo en ciclo combinado según el ciclo NEDCLitros por cada 100 kilómetros
EmisionesEmisiones de dióxido de carbonoGramos por kilómetro
VmaxVelocidad máximaKm/h
AceleraciónAceleración de 0-100 Km/hSegundos
Par máximoPar máximo del motorNewtons/metro
PesoPeso en orden de marchaKilogramos
LongitudLongitudCentímetros
AnchuraAnchuraCentímetros
AlturaAlturaCentímetros
MaleteroCapacidad del maleteroLitros
MarcaFabricante del cocheTexto
EquipamientoNúmero de elementos de equipamiento no relacionados con la seguridad (por ejemplo, apoyabrazos, asientos calefactables), excluyendo aquellos que son comunes a todos los vehículos registradosNúmero entero positivo
Equipamiento seguridadNúmero de elementos de equipamiento relacionados con la seguridad (airbags, control de estabilidad o de frenada, sistemas de conducción autónoma, etcétera), excluyendo aquellos que son comunes a todos los vehículos registradosNúmero entero positivo
PrecioPrecio de venta recomendado según web del fabricante, sin descuentosEuros
Oferta posibleEl mejor precio que, en teoría, puede encontrarse en concesionariosEuros
SeguroPrima anual de un seguro a todo riesgo con franquiciaEuros

Primero hemos de estudiar cada una de una de estas variables por separado. Para ello nos serviremos, en lo que a variables numéricas se refiere, de técnicas estadísticas básicas como medias, cuartiles, medianas y desviación estándar. Para las variables de tipo texto usaremos una tabla simple. En ambos casos recurriremos a gráficos (histogramas y diagramas de caja) para ver mejor qué estamos manejando.

Comencemos echando un vistazo a cuántos coches tenemos de cada marca. Tengamos presente que se ha registrado cada combinación de acabado y motor disponible que satisface los criterios mencionados en el artículo anterior.




Alfa Romeo 5
Audi 4
BMW 2
Fiat 4
Ford 5
Honda 6
Hyundai 5
Infinity 2
Kia 10
Mazda 4
Mercedes 2
Opel 6
Peugeot 6
Renault 7
Seat 14
Skoda 5
Volkswagen 9
Volvo 7
Vemos que SEAT y Kia son las marcas que más variedad ofrecen, con catorce y diez modelos  respectivamente. En el lado opuesto, Infinity solo vende un motor de transmisión manual con dos acabados diferentes.

Examinemos ahora la potencia de los motores en nuestra base de datos.



Mínimo100
Primer cuartil116
Mediana125
Media128.8
Tercer cuartil140
Máximo200
Desviación estándar18.93915
Podemos observar que la potencia media ronda los 130 CV, y que la mayoría de los coches que tenemos registrados están entre 110 y 150 CV. El diagrama de caja muestra dos registros que se salen de lo normal, lo cual podría indicar un error en la grabación de los datos. Afortunadamente, no es el caso: esos puntos corresponden a las versiones del Honda Civic con motores de 186 CV y una versión del Opel Astra que tiene 200 CV.

A continuación, centrémonos en el precio.

Salta a la vista que hay tres grupos distintos: uno de coches baratos entre 15.000 y 17.000 euros, el grupo principal, cuyos precios se mueven entre los 18.000 y los 29.000 euros, y otro que seguramente corresponda a las marcas más exclusivas, con importes que parten de los 30.000 euros. El precio medio es 23.701 euros, situándose el grueso entre los 21.046 y los 26.552 euros.

Mínimo15701
Primer cuartil21046
Mediana23470
Media23701
Tercer cuartil26552
Máximo31575
Desviación estándar3681.217
Como decía al principio, hay que repetir este proceso para cada variable pero, por razones de tiempo y espacio, vamos a detenernos aquí. Nuestro coche medio sería así:

Acabado3
Aceleración 0-100 km/h9.72
Altura1500
Anchura1798
CC1342
CV128
Consumo combinado5.3
Consumo extraurbano4.6
Consumo urbano6.5
Emisiones123
Equipamiento de seguridad10
Equipamiento30
Longitud4341
Maletero387
Oferta posible20703
Par máximo212
Peso1296
Precio23701
Velocidad máxima202


Obviamente, este coche no existe como tal pero esta información nos será útil más adelante cuando tratemos de entender el precio de los automóviles.

Continuará.

No hay comentarios:

Publicar un comentario