lunes, 3 de agosto de 2015

Luditas 2.0

Imaginen que tienen un problema de salud y reciben dos diagnósticos, uno de ellos realizado por un doctor de carne y hueso y el otro por un programa de ordenador. Los diagnósticos no coinciden y los tratamientos son totalmente diferentes. ¿Con cuál se quedarían?

El diagnóstico médico parece un problema demasiado complejo como para que una máquina pueda resolverlo. Sirvan como muestra las palabras del cirujano Atul Gawande:

La mayoría de los facultativos cree que el diagnóstico no puede reducirse a una serie de generalizaciones, a un «libro de recetas de cocina», como dicen algunos. Argumentan que deben tenerse en cuenta las características de cada paciente.

Esto es algo obvio. Cuando soy el especialista de cirugía en la unidad de urgencias, me suelen pedir que evalúe si un paciente con dolor abdominal tiene apendicitis. Escucho con atención su historia y considero multitud de factores: cómo noto su abdomen, el tipo de dolor y su localización, la temperatura del paciente, el apetito, los análisis. Pero no lo reduzco todo en una fórmula y calculo el resultado. Utilizo mi criterio clínico, mi intuición para decidir si hay que operarle, tenerle en el hospital en observación o enviarle a casa.
Y así, concluye:

Ninguna fórmula puede tener en cuenta la infinita variedad de sucesos excepcionales que pueden darse. Éste es el motivo por el que los médicos están convencidos de que es mejor mantenerse fial a sus instintos a la hora de realizar un diagnóstico.
En este mismo sentido, existen médicos que se muestran cautelosos cuando se trata de aplicar la medicina basada en pruebas, la cual, por su propia naturaleza, está basada en la estadística:

Las estadísticas no pueden sustituir al ser humano que uno tiene delante; las estadísticas se refieren a una media, no a los individuos. Los números sólo pueden complementar la experiencia personal del médico con un fármaco o un procedimiento, así como su conocimiento sobre si un tratamiento «mejor» de un ensayo clínico convendría a las necesidades y características especiales de un paciente.
También cabe argumentar que los métodos matemáticos no son útiles en casos fuera de lo normal:

Los algoritmos clínicos pueden ser útiles para diagnósticos y tratamientos corrientes, por ejemplo, distinguir la infección de garganta por estreptococos de la faringitis viral. Sin embargo, se desmoronan rápidamente cuando un médico necesita pensar más allá de los recuadros, cuando los síntomas son vagos, o múltiples y confusos, o cuando los resultados de las pruebas son inexactos. En esos casos –aquellos donde más falta hace un médico con capacidad de discernimiento– los algoritmos impiden a los médicos pensar con independencia y creatividad. En lugar de expandir el pensamiento de un médico, acaban por limitarlo.
Finalmente, es posible que Deep Blue batiera a Kasparov, pero el diagnóstico clínico no es un juego de reglas fijas:

[El ajedrez] es un juego complejo, pero es bidimensional y está basado en reglas fijas y claras, con piezas que nunca varían. El diagnóstico de pacientes por el contrario, tiene cuatro dimensiones (reúne las tres dimensiones espaciales y la cuarta dimensión del tiempo), no tiene reglas invariables e implica «piezas» (cuerpos) que no son iguales.
Imagen de 219Eastern
Todos estos razonamientos tan convincentes asoman la cabeza cada vez que un algoritmo rinde mejor que los expertos de carne y hueso. Los resultados de Paul Meehl sobre la superioridad de los algoritmos frente a los humanos en el diagnóstico clínico fueron recibidos con hostilidad e incredulidad. El método estadístico era criticado como mecánico, artificial, irreal, arbitrario, incompleto, estéril y otras lindeces por el estilo. Los sumillers rechazaron la fórmula de Ashenfelter bajo la premisa de que sus conclusiones eran ridículas y absurdas, pues juzgar un vino sin probarlo era como calificar una película sin haberla visto. Los ojeadores y los entrenadores deportivos siguen confiando en su instinto. Y así un largo etcétera, a pesar de las pruebas que sustentan la superioridad de los métodos matemáticos.

Sospecho que cualquier persona que se enfrente al hecho de que parte de su trabajo puede hacerlo mejor una inteligencia artificial mostraría el mismo rechazo. Para un profesional especializado, alguien consciente de toda la complejidad, los matices y las posibilidades de su campo de conocimiento es difícil asumir que todo eso pueda reducirse a una simple ecuación. Pero, como vimos en el artículo anterior, la complejidad no solo no da ventaja al experto frente al algoritmo, sino que es precisamente la causa del error humano. Por muy razonables que suenen su argumentos en contra, en la práctica lo más frecuente es que una simple combinación de factores con los pesos adecuados supere al juicio de un experto.

Si bien es la complejidad lo que lleva a los expertos a equivocarse normalmente, lo cierto es que en raras ocasiones dicha complejidad sí que cuenta. Supongan, verbigracia, que una fórmula predice que Cristiano Ronaldo marcará dos goles en el próximo partido. Supongan, además, que la fórmula es fiable al noventa y nueve por ciento. Entran en un portal de apuestas por internet para ganarse un dinerito extra con dicha información y ahí, en la sección de noticias, se encuentran con el siguiente titular: «Cristiano Ronaldo sufre una rotura de ligamentos en su rodilla y será baja durante tres semanas». ¿Procederían con su apuesta? Obviamente no. Si Ronaldo no puede jugar, da igual lo que diga la fórmula. Este supuesto se conoce como «el problema de la pierna rota»:

To cede complete decision-making power to lock up a human to a statistical algorithm is in many ways unthinkable. Complete deference to statistical prediction in this or other contexts would almost certainly lead to the odd decision that at times we “know” is going to be wrong. Indeed, Paul Meehl long ago worried about the “case of the broken leg.”
[...] A statistical procedure cannot estimate the causal impact of rare events (like broken legs) because there simply aren’t enough data concerning them to make a credible estimate. The rarity of the event doesn’t mean that it will not have a big impact when the event does in fact occur. It just means that statistical formulas will not be able to capture the impact.
Evidentemente, en estas situaciones el algoritmo no sirve de nada. Pero no hemos de olvidar que estos casos son, por definición, infrecuentes (si no lo fueran, estarían contemplados en la fórmula). Por tanto, otorgan un escaso margen de ventaja. En cualquier caso, las observaciones atípicas también pueden dar ventaja a un sistema experto digital en lugar de a un médico. Una base de datos puede almacenar información sobre todas las enfermedades conocidas y sus síntomas, así como recuperar dicha información en segundos. Por contra, un galeno no puede saberlo todo. Cuando una enfermedad es poco común, no es sorprendente que se pase por alto y el diagnóstico sea equivocado. Lisa Sanders cuenta la historia de cómo un médico pudo diagnosticar correctamente y salvar la vida a una paciente aquejada de una rara enfermedad africana gracias a un sistema experto sobre enfermedades infecciosas llamado GIDEON. De no haber sido por este sistema el médico no habría podido dar con el medicamento necesario para combatir la infección.

Tal vez estén pensando que la solución ideal consista en mezclar ambos mundos. Si combinamos expertos y algoritmos ¿obtendremos mejores resultados? De acuerdo con Ian Ayres, por lo general las personas hacen mejores predicciones cuando se les informa de los resultados de una predicción estadística. Sin embargo, incluso con esa ayuda sus predicciones son peores que las del modelo matemático a solas. Cuando el humano y la máquina no están de acuerdo, usualmente es mejor atenerse a la decisión de la predicción estadística.

¿Y si limitamos la intervención humana a identificar los casos de «piernas rotas», de manera que sea una persona la que decida si hay que optar por seguir la decisión del algoritmo, o bien omitirla y hacer caso al juicio experto? El problema en estos casos es que la gente ve piernas rotas por todas partes:

In context after context, decision makers who wave off the statistical predictions tend to make poorer decisions. The expert override doesn’t do worse when a true broken leg event occurs. Still, experts are overconfident in their ability to beat the system. We tend to think that the restraints are useful for the other guy but not for us. So we don’t limit our overrides to the clear cases where the formula is wrong; we override where we think we know better. And that’s when we get in trouble.
Las dos soluciones anteriores sitúan al humano por encima o al mismo nivel que la máquina. Sin embargo, si lo que queremos es el mejor diagnóstico o la mejor predicción posible, parece que la forma de lograrlo es supeditar el hombre a la máquina. Por ejemplo, en 2005 dos veinteañeros ganaron un torneo de ajedrez utilizando tres programas simultáneamente para decidir sus movimientos. En lugar de postularse como jugadores se relegaron a sí mismos a un segundo plano como entrenadores:

In 2005, the Web site ChessBase.com, hosted a “freestyle” chess tournament: players were free to supplement their own insight with any computer program or programs that they liked, and to solicit advice over the Internet. Although several grandmasters entered the tournament, it was won neither by the strongest human players nor by those using the most highly regarded software, but by a pair of twentysomething amateurs from New Hampshire, Steven Cramton and Zackary “ZakS” Stephen, who surveyed a combination of three computer programs to determine their moves. Cramton and Stephen won because they were neither awed nor intimidated by technology. They knew the strengths and weakness of each program and acted less as players than as coaches.
En varios estudios, la mejor forma de explotar el conocimiento de los expertos fue añadir su evaluación como un factor más a considerar por el algoritmo. De esta manera los ordenadores pueden tener en cuenta aquellas informaciones que los humanos identifican mejor y así el porcentaje de acierto es mayor.

Hoy día todos somos conscientes de que si queremos cálculos rápidos y exactos hemos de recurrir a un ordenador en lugar de a un cerebro humano. También damos por sentado que si necesitamos conocer ciertos datos, como el origen de una palabra, una fecha histórica o el creador de una obra artística terminaremos antes buscándolo en Google que preguntando a nuestros conocidos. Es de suponer que, conforme la tecnología vaya mejorando y expandiéndose, las nuevas generaciones crezcan asumiendo que los ordenadores hacen mejores predicciones que los humanos. Actualmente, nadie se extraña de que las calificaciones de riesgo crediticio las haga un ordenador, cuando hasta hace no mucho esa era una tarea humana. En el futuro, quizá ocurra lo mismo con el diagnóstico clínico.

No hay comentarios:

Publicar un comentario