lunes, 14 de agosto de 2017

Breve guía del manipulador de gráficos

Sin más preámbulo, consideremos los siguientes cuatro conjuntos de datos, todos los cuales tienen la misma media para el valor x (9) y para el valor y (7,5):

I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

¿Ven algo curioso? Probablemente no. Sin embargo, al representar los datos de forma gráfica las particularidades de cada conjunto saltan a la vista, literalmente:


El lector versado en estadística habrá reconocido, ya al ver las tablas de números, el cuarteto de Anscombe, llamado así por Francis Anscombe, quien lo alumbró en 1973 para recalcar la importancia de representar los datos gráficamente, así como la forma en la que los valores atípicos afectan a medidas como la media y la varianza.

El cuarteto de Anscombe es un buen ejemplo de cómo nuestro cerebro evolucionó para detectar patrones visuales, y cómo se atasca cuando se topa con un puñado de números escritos:

The human brain did not evolve to process large amounts of numerical data presented as text; instead, our eyes look for patterns in data that are visually displayed. The most accurate but least interpretable form of data presentation is to make a table, showing every single value. But it is difficult or impossible for most people to detect patterns and trends in such data, and so we rely on graphs and charts. Graphs come in two broad types: Either they represent every data point visually (as in a scatter plot) or they implement a form of data reduction in which we summarize the data, looking, for example, only at means or medians.
Los gráficos aprovechan el ancho de banda de nuestro sistema visual para transmitir una buena cantidad de información en un instante, lo cual agradecemos muy mucho. De paso satisfacen nuestra sed de brevedad, con la ventaja añadida de la autoridad que confieren los datos, algo que consideramos prístino y de bordes nítidos. Sin embargo, ya vimos que los números son turbios y difusos, y los gráficos añaden al arsenal del manipulador formas adicionales de distorsionar o falsificar los datos. Veamos a continuación algunas de tales estratagemas.

Comencemos por un gráfico que se ha convertido en un clásico, presentado por el presidente de Apple, Tim Cook:


Este gráfico tiene varios trucos. Para empezar, no hay escala en el eje vertical, así que no sabemos qué se está representando en realidad. ¿Unidades vendidas? ¿Dólares recaudados? Lo bueno de no etiquetar los ejes es que nos permite representar cualquier cosa.

La segunda treta en este ejemplo es que se trata de un gráfico acumulativo, los cuales, por definición, siempre muestran un incremento. Tomando datos de la SEC, David Yanofsky creó un gráfico de barras que muestra la versión no acumulativa, en el que puede verse cómo las ventas de iPhone habían descendido en los años anteriores a los que tuvo lugar la presentación.


Pasemos a otra argucia clásica: el eje truncado. Normalmente, lo honesto es que el valor del eje y empiece en cero. Sin embargo, si queremos exagerar las diferencias podemos empezar en una cifra cercana al valor mínimo que se está dibujando. Esta semana me he topado con el siguiente ejemplo:


Esta sería la versión honesta, con la escala empezando en cero:


Relacionado con esto, a alguien de El Heraldo de Aragón se le ocurrió darle una vuelta de tuerca al truco y tuvo la brillante idea de emparejar dos gráficos de ejes truncados y escalas diferentes:


Si leen las cifras, observarán que los alumnos cayeron aproximadamente un treinta por ciento, y que los profesores e investigadores aumentaron un cincuenta por ciento, lo cual no concuerda con el patrón que se infiere únicamente mediante las líneas de las gráficas.

En 2014, El Mundo publicó esta otra versión de gráficos agrupados con ejes truncados:


Fíjense en las distancias entre los valores de El País y El Mundo y compárenlas con las que separan los datos de El Mundo con los de Abc. Concretamente, observen marzo en el gráfico superior y agosto en el gráfico inferior. Notarán que la distancia visual no corresponde en absoluto con la real.

Hay quien prefiere juntar dos gráficos en uno en lugar de situarlos uno al lado del otro para mostrar una correlación (o ausencia de ella). Para ello se pueden dibujar dos ejes verticales tal que así:


Es un gráfico publicado por Forbes en Mayo de 1990. Pareciera por la imagen que incrementar el gasto por estudiante (línea blanca) no tiene efecto en la nota del SAT (la prueba de admisión a la universidad en Estados Unidos). Sin embargo, basta con cambiar la escala de uno de los ejes verticales para que parezca lo contrario:



Examinemos a continuación estas dos gráficas tomadas de un libro de Daniel Levitin:


Como vemos, la discontinuidad en el eje horizontal de la segunda gráfica produce la impresión de que el crimen ha aumentado rápidamente. Esto ocurre porque los gráficos no tienen la misma escala y el de la derecha, en la discontinuidad, agrupa datos de cinco años en el mismo espacio horizontal que ha usado hasta ese punto para representar solo dos.

El propio Levitin muestra a continuación una versión aún más malintencionada:


Aquí, las marcas del eje vertical pasan de representar intervalos de cuarenta a solo ocho, lo que produce la curva que se aprecia visualmente. El periódico El País publicó en su día un gráfico de este tipo, en el que el eje de abscisas no respeta las proporciones en las distancias entre los años, dando lugar a una escala que cambia tres veces:


Lo bueno es que la inclinación de las curvas de un gráfico se puede alterar sin necesidad recurrir a trucos como los anteriores, basta con utilizar intervalos de tiempo diferentes. Supongamos que queremos impresionara a alguien con la cantidad de productos vendidos desde 2010 a 2015. Podríamos mostrar este gráfico:

O este otro:

¡Voilá! Solo con incluir en la gráfica años para los que no tenemos datos la pendiente ha aumentado, lo que da la impresión de que las ventas han crecido mucho más rápido de lo que lo han hecho en realidad.

Fue el escocés William Playfair quien creó, a finales del siglo XVIII y principios del XIX, los gráficos de barras, áreas, líneas y sectores a los que estamos acostumbrados hoy día. Es innegable que sus creaciones comunican mucho mejor un conjunto de datos que cualquier tabla de texto pero también es cierto que los gráficos estadísticos son un lenguaje lleno de sutilezas con el que hay que tener mucho cuidado para no dar a entender una idea equivocada.

Además, con las gráficas, cuanta menos atención presta la audiencia más fácil es engañarla. Políticos, economistas, periodistas, publicistas y vendedores lo saben bien. Es por ello que toda representación visual de un conjunto de datos hay que procesarla despacio y con el mismo escepticismo que cualquier estadística, comprobando las manipulaciones más obvias y preguntándonos quién lo dice, cómo lo sabe, qué falta, y si tiene sentido.

No hay comentarios:

Publicar un comentario