Fuente: (Silver, 2012) |
De vuelta en su hotel aquella noche, Kasparov no dejaba de preguntarse cómo era posible que Deep Blue hubiera cometido un error táctico de tal magnitud en una posición tan simple; era el tipo de error que los ordenadores no cometen. Revisando los datos, el campeón mundial encontró que la jugada convencional (mover la torre para hacer jaque al rey blanco) no era un buen movimiento en realidad: a la larga hubiera significado la victoria de Kasparov, si bien se necesitarían más de veinte movimientos para llegar a ello. El gran maestro dedujo que la única razón por la que Deep Blue había optado por otro movimiento era que había encontrado otra secuencia más larga de movimientos que llevaran al jaque mate. Con una secuencia más larga Deep Blue quizá habría podido forzar tablas, pues cuantos más movimientos tienen lugar mayor es la posibilidad de que el humano se equivoque en un turno dado (los grandes jugadores cometen errores graves alrededor de una vez cada setenta y cinco movimientos). Pero si eso era cierto, si Deep Blue había dado con una secuencia más larga de movimientos, significaba que el ordenador podía anticiparse más de veinte movimientos, cuando se pensaba que su límite estaba entre seis y ocho. Esa aparente superioridad de la máquina afectó a Kasparov en el resto del encuentro. Nunca más ganó a Deep Blue. El célebre ajedrecista se rindió en la segunda partida, consiguió un empate en las tres siguientes y, finalmente, perdió la sexta.
Hoy día contamos con algo mejor que los expertos de carne y hueso: algoritmos e inteligencia artificial. Sea dicho de antemano que, en mi humilde opinión (no soy ningún experto en la materia), la inteligencia artificial aún es muy primitiva y estamos lejos de la singularidad. Sin embargo, hay cuestiones en las que los algoritmos rinden mejor que los expertos de forma consistente y por amplio margen. Allá por 1990, el profesor de economía de Princeton Orley Ashenfelter, utilizando regresión lineal, tuvo más éxito en sus predicciones sobre el valor futuro de los vinos de Burdeos que el experto en vinos Robert Parker. Bill James usó la estadística para aupar a un equipo de béisbol de bajo presupuesto, los Oakland Athletics, a las Series Mundiales (actualmente, el uso de la estadística se ha extendido a múltiples deportes). Algoritmos sencillos baten por goleada a los humanos en lo que a predicciones políticas se refiere. Existen fórmulas para predecir éxitos de taquilla, determinar qué empleados quieren abandonar la empresa o qué clientes son más proclives a no devolver un préstamo. Deep Blue venció a Kasparov y Watson a los mejores concursantes de Jeopardy. Algoritmos de diagnóstico sencillos como el test de Apgar han salvado miles de vidas de las intuiciones fallidas de los galenos. Y así siguiendo.
Fue el psicólogo Paul Meehl quien abrió la veda de los expertos a mediados del siglo pasado al publicar un libro en el que informaba de que las predicciones hechas por profesionales experimentados eran menos acertadas que las hechas con un algoritmo o fórmula:
Way back in 1954, Paul Meehl wrote a book called Clinical Versus Statistical Prediction. This slim volume created a storm of controversy among psychologists because it reported the results of about twenty other empirical studies that compared how well “clinical” experts could predict relative to simple statistical models. The studies concerned a diverse set of predictions, such as how patients with schizophrenia would respond to electroshock therapy or how prisoners would respond to parole. Meehl’s startling finding was that none of the studies suggested that experts could outpredict statistical equations.Durante los cincuenta años siguientes se han llevado a acabo docenas de estudios comparando el éxito en la toma de decisiones de los expertos frente a los métodos estadísticos en un amplia variedad de campos. La conclusión no ha cambiado, pues los algoritmos superan de manera significativa a los expertos (ibídem):
Near the end of his life, Meehl, together with Minnesota protégé William Grove, completed a “meta” analysis of 136 of these man-versus-machine studies. In only 8 of 136 studies was expert prediction found to be appreciably more accurate than statistical prediction. The rest of the studies were equally divided between those where statistical prediction “decisively outperformed” expert prediction, and those where the accuracy was not appreciably different. Overall, when asked to make binary predictions, the average expert in these wildly diverse fields got it right about two-thirds of the time (66.5 percent). The Super Crunchers, however, had a success rate that was almost three-quarters (73.2 percent).Existen varias razones que explican por qué los humanos somos inferiores a los algoritmos cuando se trata de predecir o de tomar decisiones. Para empezar, tal como explica Kahneman:
Una razón [...] es que los expertos tratan de pasar por listos, piensan fuera de la realidad y, para hacer sus predicciones, consideran complejas combinaciones de factores. La complejidad puede contar en los casos raros, pero lo más frecuente es que reduzca la validez.Otro factor relacionado con la psique humana es que, en general, los métodos estadísticos hacen mucho mejor trabajo cuando se trata de elegir qué factores han de tenerse en cuenta a la hora de hacer una predicción o tomar una decisión. También son mejores que las personas asignando pesos a cada factor individual. Según Ayres, incluso ecuaciones simples y poco refinadas son mejores que los humanos.
[...] Otra razón de la inferioridad del juicio experto es que los humanos son incorregiblemente inconsistentes cuando hacen juicios sumarios sobre información compleja. Cuando se les pide evaluar dos veces la misma información, frecuentemente dan respuestas diferentes.
Por otro lado, se dan factores de método. Por ejemplo, los expertos de carne y hueso no suelen llevar un registro de sus errores y aciertos (de hecho, tienden a recordar solo sus aciertos). Por contra, la validez de los algoritmos es puesta a prueba constantemente con conjuntos de datos reservados para ello y con los nuevos datos que se van generando. Los algoritmos se van refinando y mejoran continuamente; los expertos, no. Adicionalmente, un algoritmo puede darnos una respuesta probabilística (hay un sesenta por ciento de probabilidades de que llueva mañana), lo cual nos permite actuar en consecuencia. Por el contrario, los expertos (especialmente aquellos que aparecen en los medios de comunicación) normalmente hacen afirmaciones simplistas, cerradas y definitivas. Para mayor escarnio, se muestran excesivamente confiados en sus afirmaciones, tal como explicamos en el artículo anterior (el dogmatismo es una vía rápida hacia el error). Los procedimientos estadísticos no solo predicen, sino que también nos dicen qué calidad tiene dicha predicción.
Finalmente, a diferencia de los expertos, la inteligencia artificial no tiene ego ni sentimientos. Esto es muy importante para tomar decisiones no sesgadas (por ejemplo, influidos por el miedo o nuestras opiniones políticas), así como para cambiar nuestras predicciones o nuestro método según vamos recopilando más datos. Mientras que un algoritmo puede ser cien por cien bayesiano, lo que le permite adaptarse, recalcular y asignar nuevos pesos a los factores en los que se basa su decisión para hacer mejores predicciones, las personas, como vimos, en lugar de modificar nuestras creencias modificamos o desechamos los datos que no cuadran con nuestra opinión.
Como ocurre con todo programa informático, durante el desarrollo de Deep Blue sus creadores dedicaron mucho tiempo a solucionar fallos o bugs. Cuando el ordenador hacía un movimiento chocante o estúpido los programadores revisaban el código en busca de la causa y lo corregían. Conforme se eliminaban los bugs y Deep Blue se iba haciendo mejor jugador, cada vez estaba menos claro si esos movimiento insólitos se debían a un error en el programa o a que la máquina había identificado una jugada mejor que había escapado al ojo experto. No obstante, lo que ocurrió en aquella primera partida con Kasparov no fue una genialidad de Deep Blue, sino un error. No es que el programa pudiera predecir más de veinte movimientos; simplemente, sus creadores habían dejado un fallo sin arreglar. De hecho, el error se debió precisamente a que Deep Blue fue incapaz en ese turno de decidirse por el siguiente movimiento (énfasis en el original):
The bug had arisen on the forty-fourth move of their first game against Kasparov; unable to select a move, the program had defaulted to a last-resort fail-safe in which it picked a play completely at random. The bug had been inconsequential, coming late in the game in a position that had already been lost; Campbell and team repaired it the next day. “We had seen it once before, in a test game played earlier in 1997, and thought that it was fixed,” he told me. “Unfortunately there was one case that we had missed.”Kasparov sobrestimó las capacidades de Deep Blue y lo acabó pagando con la derrota. En general, la falibilidad de la inteligencia artificial abre un gran abanico de posibles maneras en la que podemos acabar perjudicados. Como habrán adivinado sin necesidad de ningún algoritmo, hablaremos sobre ello.
* La historia de Deep Blue y Kasparov está tomada del libro de Nate Silver The Signal and the Noise: Why So Many Predictions Fail - But Some Don't.