La analidad de los «gráficos de tarta»

Si hay un misterio mayor que la construcción de las pirámides, la existencia de la Atlántida, el primer segundo del Big Bang o la naturaleza de la materia oscura, ese misterio es por qué a la gente le gusta tanto usar gráficos de tarta. Bien podrían investigar sobre ello Iker Jiménez, Giorgio Tsoukalos, el gordo mierda de Mundo desconocido y demás troleros conspiranoicos.

Quizás es porque nos gustan las cosas redondas, o porque nos recuerdan los pasteles de cumpleaños de nuestra infancia, o se trate de una fijación a la freudiana fase anal, pero jamás comprenderé el atávico abuso del gráfico de sectores, cuando es el tipo de gráfico más inútil e inadecuado para interpretar datos. Primera regla: casi siempre puede sustituirse un gráfico de sectores por otro tipo de gráfico que presente mejor la información.

Se atribuye la introducción de este tipo de gráfico a William Playfair, estadístico escocés pionero de la interpretación gráfica de datos, a principios del s.XIX. La idea de este tipo de representación es comparar la proporción de los componentes de un todo; así, se podría graficar el porcentaje de agua, grasa, proteína y hueso en un determinado mamífero, pero no se podrían comparar, por ejemplo, el porcentaje de grasa en la carne de diferentes especies.

El gran inconveniente: la comparación de áreas

Para construir un gráfico de tarta se distribuyen los 360º de una circunferencia en proporción con la frecuencia relativa de cada serie. Por ejemplo, si la serie A representa un 30 % (fi = 0,3) su quesito será 360º × 0,3 = 108º. Luego se toma el transportador y se traza el sector correspondiente… bueno, ya todo lo hace el Excel.

gráficos de tarta 1

Como nuestra apreciación de áreas es equívoca, en este gráfico de sectores solo podemos asegurar que el área del linezolid es más pequeña y la del imipenem más grande, pero los demás sectores son dudosos. En cambio, los mismos datos en un gráfico de barras no dejan lugar a engaños.

La cosa es que nuestra percepción para comparar áreas no es ni de lejos tan buena como cuando se compran longitudes. Ello queda demostrado por el hábito periodístico de expresar la extensión de una superficie en «campos de fútbol», o los pifostios que puede generar una inexacta división en porciones de una pizza o bizcocho.

Allí está el problema: calculamos mal las áreas y nuestra percepción para comparar dos o más áreas puede ser engañosa. Eso no pasa con un buen gráfico de barras, donde nadie dudará en detectar cuál columna es más alta. Incluso una tabla puede ser más explícita que un gráfico sectorial en ciertos casos.

comparacion tartas

Comparar varios gráficos de tarta es bastante incómodo. En este caso es mucho más demostrativo un gráfico de columnas apiladas.

bannerpresentaciones

Ni pocas ni muchas series

Otra limitación de los gráficos de tarta es que son inútiles para pocas series e imprácticos para muchas. El típico gráfico mónguer para comparar la distribución por sexos de una muestra es absolutamente prescindible. Para decir que había un 35 % de varones no hace falta un gráfico, basta ponerlo en texto y ya. Así que si hay solamente dos o tres series no tiene mucho sentido usar gráficos circulares —y quizás de ningún otro tipo—.

gráficos de tarta 2

El gráfico de la izquierda es prescindible pues, cuando hay dos categorías únicas excluyentes, el % que no sea de una serie automáticamente corresponde a la otra, y ello basta expresarlo en una línea de texto. La tarta de la derecha es inútil, pues si se ha distribuido una muestra equitativamente según una característica basta con indicarlo en el texto: «la población fue distribuida al 25 % para los siguientes grupos étnicos…»

En el otro extremo, cuantas más series se quieran meter en un gráfico de tarta más pequeños serán los quesitos y más arduo será compararlos. La profusión de series da al gráfico un aspecto perfectamente anal, un círculo plagado de rayos que simula un ojete.

gráfico de tarta 3

Un gráfico de sectores con muchas series es confuso e inútil. Aquí se muestra un gráfico tipo «ano», plagado de radios que delimitan pequeños sectores difíciles de comparar; apenas se ve que alanina y glicina son los residuos más frecuentes y poco más. En cambio, el gráfico de la derecha sí muestra claramente la información.

Efectos 3D para empeorar lo que ya es malo

En un post pasado comenté que prácticamente ningún gráfico gana nada por adornarlo con efectos tridimensionales, los cuales añaden ruido visual y llegan a estorbar en la interpretación de los datos. Esto es especialmente terrible en los gráficos de sectores, pues la perspectiva inducida reduce el tamaño aparente de los sectores más alejados respecto a los de adelante, añadiendo un factor de confusión adicional. Mientras más sesgado esté el pastel mayor será la deformación.

graficos tarta 4

Si los «pie chart» ya son chungos, sesgarlos mediante 3D los convierte en infames. En el de la izquierda ¿qué sector es mayor, el azul o el amarillo? Parecen iguales y también similares al verde, pero en realidad hay una diferencia considerable entre el amarillo y el azul si el gráfico se ve de frente. La leyenda colocada al pie obliga al observador a emparejar por colores mirando arriba y abajo, mientras que los rótulos incluidos dentro del sector facilitan la interpretación.

Rótulos y leyendas

Cuando se usa un gráfico de sectores lo ideal es que el título de cada serie esté señalado dentro de cada quesito o adyacente al mismo, en vez de colocar una leyenda aparte con el código de colores, pues ello también entorpece la lectura del gráfico, especialmente si hay muchas series y los colores se prestan a confusión.

Conviene que dentro del rótulo de cada sector se incluya la frecuencia absoluta o porcentual de su respectiva serie.

Entonces, ¿nunca jamás se deben usar?

Casi, casi, casi. Repito: prácticamente siempre habrá mejores opciones gráficas para presentar unos datos. Puntualmente podría ser pasable recurrir a una tarta, por ejemplo dentro de una infografía compleja donde se quiera reducir texto.

Hay variantes del gráfico de sectores, como las tartas divididas, tartas dentro de tartas, sectores multinivel o con segmentos de sector anidados. La mayoría de estas variantes no se usan en ciencias y en realidad son versiones más complicadas de entender.

pie chart

¿Hasta qué punto puede complicarse un gráfico de sectores para hacerlo más repelente? En este ejemplo, extraído de la web de IBM, se ha fabricado un intrincado gráfico de anillos concéntricos y divididos por sectores, con sesgo 3D, leyenda absurdamente repetitiva y rótulos con porcentajes que se montan en el sector adyacente, para rematar la confusión. Madre mía.

Quizás la única variante de la que se puede sacar provecho sea el gráfico anular o de rosquilla, donde se elimina el área central de un gráfico de tarta y ello convierte la comparación de áreas de círculo en comparación de longitud de segmentos de una corona circular. Siempre nos será más fácil comparar longitudes, aunque éstas sean curvadas.

grafico de anillo

Los gráficos de anillo o rosquilla son una alternativa a la clásica tarta que facilita la interpretación al convertir áreas en longitudes de segmentos de una corona de círculo. Aquí aparecen dos ejemplos de gráficos mostrados más arriba.

Estos gráficos de rosquilla son una opción aceptable mientras no se abuse de series y no se adulteren con cutres efectos tridimensionales.

graficoanal

«Ceterum censeo Podemus esse delenda»

Anuncios

Cosas a evitar en una presentación: gráficas 3D

gráfico barras 3D

Esto que parece el ‘skyline’ de Manhattan pretende ser un gráfico de datos, pero es una sambumbia ininteligible. Entre sus muchos defectos destaca el formato en 3D que produce superposición de series y exceso de ruido visual. Vía www.sshep.com.

Una de las cutreces a las que nos ha conducido la suite Office de Microsoft, a través de sus plantillas y flujos de trabajo «por defecto», es a utilizar gráficas con efectos 3D como un estándar habitual para mostrar nuestros datos en las comunicaciones escritas y orales.

En los años 90 quedaba modernísimo usar estos gráficos tridimensionales, con columnas, barras y sectores sesgados en el espacio, que parecían espectaculares y superprofesionales, más si se comparaban con los gráficos dibujados a tinta o mediante algún primitivo programa en MS-DOS. Vale la pena recordar que hasta la difusión de las suites ofimáticas los investigadores tenían que fabricar sus gráficos a mano o recurrir a un dibujante si querían un resultado óptimo.

En los journals del s.XIX y primera mitad del s.XX era mucho más frecuente presentar resultados en forma de tablas que como gráficos, supongo que debido a la limitación para elaborar e imprimir estos últimos, pues equivalían a una ilustración.

jhgjhgjhjhg

ddd Ejemplos de gráficas de la era anterior a las suites ofimáticas. Arriba, humilde gráfico hecho a mano en un artículo de Banting y Best de 1923 (ver aquí). Abajo un gráfico de dibujante en una publicación de 1960 de Björk y Svensson (aquí).

Actualmente hay abundante software para realización de gráficos de datos, no solo los domésticos Excel de Microsoft y Numbers de Apple, sino aplicaciones profesionales asociadas o no a software de estadística, tipo SPSS. Estas herramientas permiten a cualquiera hacer sus gráficas controlando todos los detalles de proyección, colores, formato de líneas, etc.

Mucho es lo que puede fallar al hacer un gráfico: selección del tipo de gráfico, mal procesamiento de datos, escalas inapropiadas o cortes arbitrarios en los ejes, demasiadas líneas divisorias, signos o colores confusos, rótulos ilegibles o mal posicionados, etc.

También el uso de efectos tridimensionales acarrea problemas en los gráficos por dos motivos: sesgo de percepción y ruido visual en su diseño. Os dejo unas pocas diapositivas de ejemplo sobre este tema, disponibles en Calameo  y AuthorStream (ambos con mejor resolución) y en SlideShare:

La distorsión de los datos en las gráficas 3D

El meollo del asunto está en la perspectiva. Cuando los ejes de datos no están en el plano frontal del espectador, los elementos que quedan más alejados se apreciarán necesariamente como más pequeños, cosa que puede sesgar francamente la interpretación de los datos. Nuestro cerebro tiene capacidad para corregir parcialmente el efecto de la perspectiva sobre el tamaño, pero tal corrección dista mucho de la exactitud, de modo que la ilusión óptica derivada de un gráfico en perspectiva tiende a falsear la percepción de los datos.

Esto es especialmente sangrante para los gráficos de sectores, donde la representación del círculo como una moneda tumbada distorsiona muy sensiblemente la apreciación del área de los sectores, efecto tanto más acentuado cuanto más acostado está el gráfico. En general fallamos más estimando áreas que estimando longitudes, y eso hay que tenerlo en cuenta en el momento de escoger el tipo de gráfico para nuestros datos.

Otro problema surge cuando en un gráfico de columnas con múltiples series se colocan unas series delante de otras y se muestra una vista inclinada del gráfico para que todas las series sean (teóricamente) visibles. Sin embargo no es raro que ocurra superposición de columnas pequeñas detrás de otras grandes. La mayoría de las veces este tipo de figuras son más complejas de lo necesario y su interpretación más difícil.

bannerpresentaciones

Adornos 3D innecesarios

La otra consideración es sobre la cantidad de elementos gráficos superfluos que llegan a acumular los gráficos con efectos 3D y que en nada contribuyen a la mejor comprensión de la información presentada. Que una barra sea un paralelepípedo en vez de un paralelogramo no hace al gráfico más efectivo. Igual que las barras en forma de cilindro o de cono. El 3D introduce en la figura aristas y caras adicionales, degradados y sombreados que no ayudan a interpretar los datos sino que incluso pueden entorpecerlos.

Ya hemos hablado aquí del ruido visual en el diseño gráfico: cualquier elemento visual que no contribuya en la comunicación del mensaje es ruido potencial. En esta categoría ruidosa entran los efectos 3D en las gráficas científicas. Por norma, lo que no comunica, molesta.

También por norma (o recomendación) deberíamos decantarnos por los gráficos sencillos y limpios en 2D. Basta observar las figuras en la mayoría de los journals serios y de prestigio: gráficos en blanco y negro o discreto esquema cromático, rótulos y símbolos claros, sin líneas divisorias de más y, sobre todo, sin decoración 3D. Por el contrario, en publicaciones con menos solera (donde por lástima hay que incluir muchas revistas locales de nuestro medio), se nota la manufactura Excel-cutremierder que no inspira mucha confianza.

El problema más que en Excel está en usar el gráfico tal y como sale de Excel. Todos los parámetros del gráfico se pueden formatear para mejorar el aspecto y darle un acabado profesional en vez de escolar. Numbers de Apple tiene un grafismo más fino que queda muy bien en presentaciones, pero también conviene darle formato. Hay que dejar claro que tanto en Excel como en Numbers la opción de gráficas en 3D es elección absoluta del propio usuario.

¿Digo con esto que usar representación de datos en 3D es anatema? Todo tiene su lugar, eventualmente se pueden usar estos efectos y otros más llamativos aún, como cuando se hacen infografías creativas, o cuando se exponen datos ya conocidos o consolidados. Pero no es recomendable usarlos en la presentación de datos originales de una investigación (menos aún si es en un artículo impreso) y, en general, para la mayoría de comunicaciones científicas.

Como mencioné antes, existen diversos softwares profesionales para obtener gráficas científicas; me gusta el cómodo y completo GraphPad Prism (nada barato, por cierto).