Meditaciones: predicciones

Mostrando entradas con la etiqueta predicciones. Mostrar todas las entradas

lunes, 3 de junio de 2019

¿Experto o cuñado? (III)

Alejémonos un poco del concepto filosófico y centrémonos en la definición mundana del saber. Aquí encontramos, por un lado, el conocimiento de tipo Trivial Pursuit que sirve para responder a preguntas tales como «¿cuántos jueces hay en el Tribunal Supremo?», «¿cuál es el número de Avogadro?», «¿qué países forman parte de la OTAN?» o «¿cuáles son los gases nobles?». Por otro, tenemos el conocimiento que utilizamos en cuestiones del tipo «justifica tu respuesta». El primero es fácil de evaluar. El segundo, que es el que nos interesa, no tanto.

Foto de Jlhopgood

¿Cómo podemos valorar si una persona es realmente experta en una materia? ¿Cómo asegurarnos de que no estamos confundiendo otras cualidades (seguridad en uno mismo, dominio de la jerga) con conocimiento verdadero? ¿Cómo podemos comprobar que no es el homúnculo de la habitación china de la que hablamos al principio?

Philip Tetlock, cuyo trabajo hemos mencionado en varias ocasiones, utilizó como vara de medir la capacidad de hacer predicciones acertadas. Como él mismo reconoce, es una elección discutible porque es posible conocer un fenómeno pero errar la predicción:

Explanation is possible without prediction. A conceptually trivial but practically consequential source of forecasting failure occurs whenever we possess a sound theory but do not know whether the antecedent conditions for applying the theory have been satisfied: high school physics tells me why the radiator will freeze if the temperature falls below 32°F but not how cold it will be tonight. Or, consider cases in which we possess both sound knowledge and good knowledge of antecedents but are stymied because outcomes may be subject to chaotic oscillations. Geophysicists understand how principles of plate tectonics produce earthquakes and can monitor seismological antecedents but still cannot predict earthquakes.

Asimismo, es posible hacer predicciones correctas aun cuando no sepamos explicar el fenómeno (ibídem):

Conversely, prediction is possible without explanation. Ancient astronomers had bizarre ideas about what stars were, but that did not stop them from identifying celestial regularities that navigators used to guide ships for centuries. And contemporary astronomers can predict the rhythms of solar storms but have only a crude understanding of what causes these potentially earth-sizzling eruptions.

Este último problema ya nos lo hemos encontrado y vimos que, para que la explicación se considere conocimiento, esta debe tener una conexión causal con el hecho. Esa es la razón por la que, como ilustra el propio Tetlock, ningún científico que se precie cambiaría su opinión acerca de la astrología aun cuando un astrólogo hiciera predicciones acertadas, pues ello socavaría un enorme corpus de conocimiento científico establecido. En una situación así lo más lógico sería buscar otros mecanimos subyacentes a esos aciertos.

Podemos ver de forma sencilla la relación entre predicciones y conocimiento considerando los pronósticos sobre el clima. Si la aplicación meteorológica de nuestro teléfono no acierta nunca con la lluvia o con la temperatura de los días venideros diríamos que quienes hacen los pronósticos no tienen ni idea. Afortunadamente, aunque el clima es uno de los mejores ejemplos de oscilaciones caóticas que influyen en el resultado es posible hacer predicciones bastante certeras para cortos periodos de tiempo.

La reputación de los meteorólogos probablemente sea peor de lo que merecen, algo que no diría de los economistas cuyas predicciones yerran con tanta frecuencia que, en mi opinión, hay un sentimiento generalizado de falta de competencia que está justificado. De hecho, hay economistas que comparten esa sensación:

[E]conomics is faulted for its failure to predict. God created economic forecasters to make astrologers look good, quipped John Kenneth Galbraith (himself an economist). Exhibit A in recent times has been the global financial crisis, which unfolded at a time when the vast majority of economists had been lulled into thinking macroeconomic and financial stability had arrived for good. I explained in the previous chapter that this misperception was another by-product of the usual blind spot: mistaking a model for the model.

¿Por qué ligamos conocimiento y pronósticos acertados? Quizá sea un efecto secundario del método científico. Una buena teoría científica no solo explica los fenómenos observados hasta la fecha sino que además permite hacer predicciones claras, precisas y (a menudo) sorprendentes que pueden comprobarse. Simplificando mucho, si las predicciones resultan ser ciertas la teoría es verificada y, si no lo son, la teoría es refutada. Por ejemplo, según la teoría de la relatividad general de Einstein el Sol curva la luz en una magnitud concreta:

Otra verificación astronómica famosa de la relatividad general es la predicción de Einstein de que el Sol curva la luz. La gravitación newtoniana también predice esto, pero la relatividad general predice una cantidad de curvamiento que es dos veces mayor. El eclipse solar total de 1919 proporcionó una oportunidad para distinguir los dos, y Sir Arthur Eddington organizó una expedición, finalmente anunciando que Einstein se imponía. Esto fue aceptado con entusiasmo en la época, pero más tarde se hizo claro que los datos eran pobres y el resultado fue cuestionado. Observaciones independientes adicionales de 1922 parecían estar de acuerdo con la predicción relativista, como lo estuvo un reanálisis posterior de los datos de Eddington. En la década de los sesenta del siglo XX, se hizo posible hacer las observaciones para radiaciones de radiofrecuencia y, solo entonces, fue seguro que los datos sí que mostraban una desviación dos veces mayor que la predicha por Newton e igual a la que predijo Einstein.

Otro buen ejemplo de teoría verificada por sus predicciones es la tabla de elementos de Mendeleiev:

En 1871, Mendeleiev predijo la existencia de tres elementos desconocidos en su tiempo, llegando a señalar sus propiedades más destacadas (incluyendo el peso atómico aproximado). Estas predicciones se vieron confirmadas pronto: en 1875, el francés Paul Émile Lecoq de Boisbaudran (1838-1912) anunciaba el descubrimiento del galio (ekaboro para Mendeleiev); en 1879, el sueco Lars Fredrik Nilson (1840-1899) hacía lo propio con el escandio (ekaluminio), y en 1886, el alemán Clemens Alexander Winkler (1838-1904) descubría el germanio (ekasilicio).

Ejemplos de teorías refutadas por las observaciones serían el modelo geocéntrico de Ptolomeo y la teoría del flogisto. Aunque ambas teorías fueron válidas durante bastante tiempo finalmente acabaron siendo desplazadas por teorías mejores. Durante ese proceso, para acomodar las observaciones que no encajaban se hacían modificaciones ad hoc (añadiendo epiciclos y deferentes en el primer caso, asignando al flogisto un peso negativo en el segundo) que complicaban la teoría o introducían problemas nuevos.

Las explicaciones teológicas que se proponen como alternativa a teorías científicas se comportan igual que las malas teorías: cambian con cada nueva observación para acomodarse a ellas. Esto tiene la ventaja de que la teoría, efectivamente, se adapta a las pruebas lo que, según sus proponentes, prueba que son ciertas. El problema es que cualquier creencia, por rídicula que sea, puede hacerse encajar con las pruebas disponibles. Stephen Law pone el siguiente ejemplo:

Dave believes dogs are spies from the planet Venus. He views any canine with great suspicion, for he believes they are here from Venus to do reconnaissance work. Dogs, Dave supposes, secretly send their reports back to Venus, where the rest of their fiendishly cunning alien species are meticulously planning their invasion of the earth. Their spaceships will shortly arrive from Venus to enslave the human race and take over the world.

Unsurprisingly, Dave's friends think he has a screw loose and try to convince him that dogs are comparatively benign pets, not cunning alien spies. Here's a typical example of how their conversations with Dave go.

DAVE: It's only a matter of weeks now! The spaceships will arrive and then you'll wish you'd listened to me. We must act now—let the government know!
MARY: Look, Dave, dogs are pretty obviously not space invaders, they're just dumb pets. Dogs can't even speak, for goodness sake, let alone communicate with Venus!
DAVE: They can speak—they just choose to hide their linguistic ability from us. They wait till we leave the room before they talk to each other.
PETE: But Venus is a dead planet, Dave. It's horrifically hot and swathed in clouds of acid. Nothing could live there, certainly not a dog!
DAVE: Dogs don't live on the surface of Venus, you fool—they live below, in deep underground bunkers.
MARY: But then how do earth-bound dogs communicate with their allies on Venus? I've got a dog, and I've never found an alien transmitter hidden in his basket.
DAVE: They don't use technology we can observe. Their transmitters are hidden inside their brains!
MARY: But Pete is a vet, and he's X-rayed several dog's heads, and he's never found anything in there!
PETE: In fact, I once chopped up a dog's brain in veterinary school—let me assure you, Dave, there was no transmitter in there!
DAVE: You're assuming their transmitters would be recognizable as such. They are actually made of organic material indistinguishable from brain stuff. That's why they don't show up on X-rays. This is advanced alien technology, remember—of course we cannot detect it!
MARY: But we don't detect any weird signals being directed at Venus from the earth.
DAVE: Of course, we don't—like I said, remember, this is advanced alien technology beyond our limited understanding!
PETE: How do dogs fly spaceships? They don't even have hands. So they can't hold things like steering wheels and joysticks.
DAVE: Really, Pete. Think about it. You are assuming that their spacecraft will be designed to be operated by human hands. Obviously they won't. They'll be designed to be maneuvered by a dog's limbs, mouth, tongue, and so on.

Como vemos, con cada pregunta Dave añade un «epiciclo» para ajustar su descabellada hipótesis con las observaciones. Muchos de estos ajustes son, además, imposibles de comprobar lo que hace imposible falsificar su teoría, una falta de rigor científico característica de este tipo de explicaciones.

Todos nosotros usamos parte del método científico cada día. ¿Nos gustará esto que probamos por primera vez? ¿Estará peor el tráfico esta mañana? ¿Debería aceptar este nuevo trabajo? Respondemos estas preguntas con predicciones basadas en nuestras propias teorías sobre cómo funciona el mundo o cómo somos nosotros. El método científico dicta que cuando nos equivocamos lo que deberíamos hacer es revisar nuestra teoría. Sin embargo, lo que solemos hacer es poner excusas, igual que hicieron los expertos entrevistados por Tetlock: «no ha pasado pero pasará», «lo que en realidad quise decir era esto otro», «no ha ocurrido por poco», etcétera. Hacer esto es síntoma de que nuestra teoría es errónea lo que significa, a su vez, que no sabíamos tanto como pensábamos.

Continuará.

lunes, 2 de noviembre de 2015

Los próximos treinta años

Las guerras del futuro no se librarán en un campo de batalla ni en el mar. Se librarán en el Espacio o, en su lugar, en la cima de una montaña muy alta. En cualquier caso, la mayor parte del combate será llevado a cabo por pequeños robots. Cuando salgáis hoy de aquí recordad siempre que vuestro deber está muy claro: construir y mantener esos robots.

—Los Simpson 4F21

Hablaba hace unos días con una amiga sobre cómo el futuro imaginado por los guionistas del largometraje Regreso al futuro II no se ha materializado. En lugar de zapatillas que se atan solas tenemos paloselfis, en lugar de ropa cuya talla se ajusta automáticamente tenemos paloselfis, y en lugar de patinetes y coches voladores tenemos... memes y emojis. Mi amiga y yo nos preguntábamos en qué momento la Humanidad se había perdido.

Aún así, algunas predicciones de la película sí se han hecho realidad, como los remakes en tres dimensiones, las videollamadas o la nostalgia de los ochenta. Si ustedes creen que pueden hacerlo mejor, Luis Tarrafeta ha comenzado en su blog una casa de apuestas al estilo de longbets.org. En caso de que su pronóstico (con un horizonte mínimo de dos años) resulte acertado pueden ganar una cena o unas cervezas gratis.

Foto de rjrgmc28

No es más que la verdad sencilla cuando decimos que a los humanos se nos da fatal predecir el futuro. A este respecto les recomiendo el libro de Dan Gardner titulado Future Babble: Why Expert Predictions Are Next to Worthless, and You Can Do Better. En él encontrarán célebres predicciones fallidas, como las de Paul Ehrlich sobre superpoblación y hambrunas, o aquella otra muy popular en la década de los setenta que aseguraba que se acabaría todo el petróleo en unos treinta años, con consecuencias desastrosas. Otras son menos conocidas pero igualmente erradas, como la aseveración hecha por el periodista H. N. Norman de que se había llegado a la paz eterna meses antes de que estallara la Primera Guerra Mundial. Muchas otras las he vivido de primera mano. A finales de los ochenta, verbigracia, parecía que Japón iba encaminado a dominar la economía mundial, cuando lo que ocurrió fue que pocos años después su economía se hundió. A finales de los noventa, con la economía estadounidense funcionando a todo gas daba la impresión de que eso del crecimiento económico estaba dominado, y se publicó Dow 36,000. Poco después de la aparición del libro el índice Dow Jones marcó su máximo en menos de 12.000 y empezó un doloroso descenso producido por la explosión de la burbuja de las puntocom.

Un compendio de todas las razones por las que los humanos somos tan malos haciendo predicciones da para llenar una biblioteca, pero una de las causas más importantes tiene que ver con nuestra propia psicología. Cuando hacemos predicciones sobre el futuro solemos limitarnos a extender de forma ingenua las tendencias actuales, de manera que si vivimos una época de bonanza vaticinaremos un futuro brillante, mientras que en épocas de crisis la mayoría de voces advertirá que el fin de la civilización está cerca. Esto se conoce como sesgo del statu quo:

In psychology and behavioral economics, status quo bias is a term applied in many different contexts, but it usually boils down to the fact that people are conservative: We stick with the status quo unless something compels us otherwise. In the realm of prediction, this manifests itself in the tendency to see tomorrow as being like today. Of course, this doesn’t mean we expect nothing to change. Change is what made today what it is. But the change we expect is more of the same. If crime, stocks, gas prices, or anything else goes up today, we will tend to expect it to go up tomorrow. And so tomorrow won’t be identical to today. It will be like today. Only more so.

En realidad, esta no es una mala regla heurística. En 2007, Ron Alquist y Lutz Kilian observaron que el mejor método para predecir el precio futuro del petróleo es, simplemente, suponer que será el mismo que hoy. Parece una regla absurda y está lejos de ser precisa pero, aún así, tal como demostraron estos dos economistas en su estudio es mejor que cualquier otro método, ya sean modelos econométricos, precios en mercados de futuros u opiniones de expertos. En este mismo sentido, Philip Tetlock advirtió en su experimento que quienes más aciertan en sus augurios son aquellos que menos se alejan del statu quo:

Each step from the equilibrium is harder than the last. Negative feedback stabilizes social systems because major changes in one direction are offset by counterreactions. Good judges appreciate that forecasts of prolonged radical shifts from the status quo are generally a bad bet.

El problema es que los cambios económicos, políticos y sociales son acumulativos, y cuanto más largo es el horizonte de predicción mayor es la probabilidad de que aparezcan cisnes negros en el camino (ibídem Gardner):

This tendency to take current trends and project them into the future is the starting point of most attempts to predict. Very often, it’s also the end point. That’s not necessarily a bad thing. After all, tomorrow typically is like today. Current trends do tend to continue. But not always. Change happens. And the farther we look into the future, the more opportunity there is for current trends to be modified, bent, or reversed. Predicting the future by projecting the present is like driving with no hands. It works while you are on a long stretch of straight road, but even a gentle curve is trouble, and a sharp turn always ends in a flaming wreck.

Dejemos a un lado las predicciones políticas y económicas y hablemos brevemente sobre los cambios tecnológicos. Actualmente se habla mucho sobre el impacto que tendrán los robots y tecnologías como Bitcoin. Obviamente, todas las predicciones al respecto son mera especulación y solo con el paso del tiempo veremos qué ocurre. De la misma manera que no podemos hacer predicciones precisas a treinta años vista cuando se trata de sistemas sometidos al caos y a la aleatoriedad tampoco estamos en posición de hacerlos en lo que a tecnología se refiere. Una razón para ello fue expuesta por Karl Popper allá por la década de 1930 (ibídem Gardner):

“The course of human history is strongly influenced by the growth of human knowledge,” Popper wrote. But it’s impossible to “predict, by rational or scientific methods, the future growth of our scientific knowledge” because doing so would require us to know that future knowledge, and, if we did, it would be present knowledge, not future knowledge. “We cannot, therefore, predict the future course of human history.”

Existe otra razón posible, propuesta por Nassim Taleb, que tiene que ver con la forma en que enfocamos el problema de hacer predicciones. Cuando imaginamos el futuro tendemos a pensar en las novedades cuando lo correcto –según él– es centrarse en aquello que desaparecerá (énfasis en el original):

Now close your eyes and try to imagine your future surroundings in, say, five, ten, or twenty-five years. Odds are your imagination will produce new things in it, things we call innovation, improvements, killer technologies, and other inelegant and hackneyed words from the business jargon. These common concepts concerning innovation, we will see, are not just offensive aesthetically, but they are nonsense both empirically and philosophically.
Why? Odds are that your imagination will be adding things to the present world. I am sorry, but [...] this approach is exactly backward: the way to do it rigorously, according to the notions of fragility and antifragility, is to take away from the future, reduce from it, simply, things that do not belong to the coming times. Via negativa. What is fragile will eventually break; and, luckily, we can easily tell what is fragile.

Por supuesto, eso no quiere decir que no vayan a aparecer nuevas tecnologías. Lo que este autor sostiene es que algunas tecnologías será reemplazadas por otra cosa, y que esa «otra cosa» es impredecible. Para saber qué tecnologías tienen más probabilidad de desaparecer, Taleb sugiere una regla sencilla (el énfasis es mío):

For the nonperishable, every additional day may imply a longer life expectancy.
So the longer a technology lives, the longer it can be expected to live.
[...] If a book has been in print for forty years, I can expect it to be in print for another forty years. But, and that is the main difference, if it survives another decade, then it will be expected to be in print another fifty years. This, simply, as a rule, tells you why things that have been around for a long time are not “aging” like persons, but “aging” in reverse. Every year that passes without extinction doubles the additional life expectancy. This is an indicator of some robustness. The robustness of an item is proportional to its life!

De acuerdo con este razonamiento, uno los grandes aciertos de Regreso al Futuro II es suponer que en 2015 aún habría periódicos en papel.

Independientemente del zeitgeist, una de las predicciones que siempre está ahí es la del fin del mundo: que si el LHC, que si los Mayas, que si el efecto 2000, que si la energía nuclear, que si Nostradamus, que si la caída del Imperio Romano. Es como si la Humanidad pensara, a cada paso que da, que todo está estropeado sin remedio y que el apocalipsis nos aguarda en los próximos años, si no meses. Pero aquí seguimos, oiga.

Incluso en nuestra vida diaria podemos ver la obsesión con proclamar el fin de algo, ya sea la prensa escrita, alguna tecnología concreta o el dominio de un equipo como el Barcelona de Guardiola. Yo, verbigracia, llevo ya cinco años oyendo a la gente que se marcha de la empresa en la que trabajo decir que la compañía está acabada, que va a cerrar y que huya cuanto antes. Bien es cierto que hace aproximadamente año y medio estuvo a punto de declararse en bancarrota, pero el hecho es que superó el bache y ahí sigue, ofreciendo sus servicios. Y, si Taleb tiene razón, ahí seguirá otros quince años. Personalmente, tengo mis reservas de que vaya a durar tanto pero no se preocupen, en 2030 les diré quién tenía razón. Si el mundo no se ha acabado, claro.

lunes, 3 de agosto de 2015

Luditas 2.0

Imaginen que tienen un problema de salud y reciben dos diagnósticos, uno de ellos realizado por un doctor de carne y hueso y el otro por un programa de ordenador. Los diagnósticos no coinciden y los tratamientos son totalmente diferentes. ¿Con cuál se quedarían?

El diagnóstico médico parece un problema demasiado complejo como para que una máquina pueda resolverlo. Sirvan como muestra las palabras del cirujano Atul Gawande:

La mayoría de los facultativos cree que el diagnóstico no puede reducirse a una serie de generalizaciones, a un «libro de recetas de cocina», como dicen algunos. Argumentan que deben tenerse en cuenta las características de cada paciente.

Esto es algo obvio. Cuando soy el especialista de cirugía en la unidad de urgencias, me suelen pedir que evalúe si un paciente con dolor abdominal tiene apendicitis. Escucho con atención su historia y considero multitud de factores: cómo noto su abdomen, el tipo de dolor y su localización, la temperatura del paciente, el apetito, los análisis. Pero no lo reduzco todo en una fórmula y calculo el resultado. Utilizo mi criterio clínico, mi intuición para decidir si hay que operarle, tenerle en el hospital en observación o enviarle a casa.

Y así, concluye:

Ninguna fórmula puede tener en cuenta la infinita variedad de sucesos excepcionales que pueden darse. Éste es el motivo por el que los médicos están convencidos de que es mejor mantenerse fial a sus instintos a la hora de realizar un diagnóstico.

En este mismo sentido, existen médicos que se muestran cautelosos cuando se trata de aplicar la medicina basada en pruebas, la cual, por su propia naturaleza, está basada en la estadística:

Las estadísticas no pueden sustituir al ser humano que uno tiene delante; las estadísticas se refieren a una media, no a los individuos. Los números sólo pueden complementar la experiencia personal del médico con un fármaco o un procedimiento, así como su conocimiento sobre si un tratamiento «mejor» de un ensayo clínico convendría a las necesidades y características especiales de un paciente.

También cabe argumentar que los métodos matemáticos no son útiles en casos fuera de lo normal:

Los algoritmos clínicos pueden ser útiles para diagnósticos y tratamientos corrientes, por ejemplo, distinguir la infección de garganta por estreptococos de la faringitis viral. Sin embargo, se desmoronan rápidamente cuando un médico necesita pensar más allá de los recuadros, cuando los síntomas son vagos, o múltiples y confusos, o cuando los resultados de las pruebas son inexactos. En esos casos –aquellos donde más falta hace un médico con capacidad de discernimiento– los algoritmos impiden a los médicos pensar con independencia y creatividad. En lugar de expandir el pensamiento de un médico, acaban por limitarlo.

Finalmente, es posible que Deep Blue batiera a Kasparov, pero el diagnóstico clínico no es un juego de reglas fijas:

[El ajedrez] es un juego complejo, pero es bidimensional y está basado en reglas fijas y claras, con piezas que nunca varían. El diagnóstico de pacientes por el contrario, tiene cuatro dimensiones (reúne las tres dimensiones espaciales y la cuarta dimensión del tiempo), no tiene reglas invariables e implica «piezas» (cuerpos) que no son iguales.

Imagen de 219Eastern

Todos estos razonamientos tan convincentes asoman la cabeza cada vez que un algoritmo rinde mejor que los expertos de carne y hueso. Los resultados de Paul Meehl sobre la superioridad de los algoritmos frente a los humanos en el diagnóstico clínico fueron recibidos con hostilidad e incredulidad. El método estadístico era criticado como mecánico, artificial, irreal, arbitrario, incompleto, estéril y otras lindeces por el estilo. Los sumillers rechazaron la fórmula de Ashenfelter bajo la premisa de que sus conclusiones eran ridículas y absurdas, pues juzgar un vino sin probarlo era como calificar una película sin haberla visto. Los ojeadores y los entrenadores deportivos siguen confiando en su instinto. Y así un largo etcétera, a pesar de las pruebas que sustentan la superioridad de los métodos matemáticos.

Sospecho que cualquier persona que se enfrente al hecho de que parte de su trabajo puede hacerlo mejor una inteligencia artificial mostraría el mismo rechazo. Para un profesional especializado, alguien consciente de toda la complejidad, los matices y las posibilidades de su campo de conocimiento es difícil asumir que todo eso pueda reducirse a una simple ecuación. Pero, como vimos en el artículo anterior, la complejidad no solo no da ventaja al experto frente al algoritmo, sino que es precisamente la causa del error humano. Por muy razonables que suenen su argumentos en contra, en la práctica lo más frecuente es que una simple combinación de factores con los pesos adecuados supere al juicio de un experto.

Si bien es la complejidad lo que lleva a los expertos a equivocarse normalmente, lo cierto es que en raras ocasiones dicha complejidad sí que cuenta. Supongan, verbigracia, que una fórmula predice que Cristiano Ronaldo marcará dos goles en el próximo partido. Supongan, además, que la fórmula es fiable al noventa y nueve por ciento. Entran en un portal de apuestas por internet para ganarse un dinerito extra con dicha información y ahí, en la sección de noticias, se encuentran con el siguiente titular: «Cristiano Ronaldo sufre una rotura de ligamentos en su rodilla y será baja durante tres semanas». ¿Procederían con su apuesta? Obviamente no. Si Ronaldo no puede jugar, da igual lo que diga la fórmula. Este supuesto se conoce como «el problema de la pierna rota»:

To cede complete decision-making power to lock up a human to a statistical algorithm is in many ways unthinkable. Complete deference to statistical prediction in this or other contexts would almost certainly lead to the odd decision that at times we “know” is going to be wrong. Indeed, Paul Meehl long ago worried about the “case of the broken leg.”
[...] A statistical procedure cannot estimate the causal impact of rare events (like broken legs) because there simply aren’t enough data concerning them to make a credible estimate. The rarity of the event doesn’t mean that it will not have a big impact when the event does in fact occur. It just means that statistical formulas will not be able to capture the impact.

Evidentemente, en estas situaciones el algoritmo no sirve de nada. Pero no hemos de olvidar que estos casos son, por definición, infrecuentes (si no lo fueran, estarían contemplados en la fórmula). Por tanto, otorgan un escaso margen de ventaja. En cualquier caso, las observaciones atípicas también pueden dar ventaja a un sistema experto digital en lugar de a un médico. Una base de datos puede almacenar información sobre todas las enfermedades conocidas y sus síntomas, así como recuperar dicha información en segundos. Por contra, un galeno no puede saberlo todo. Cuando una enfermedad es poco común, no es sorprendente que se pase por alto y el diagnóstico sea equivocado. Lisa Sanders cuenta la historia de cómo un médico pudo diagnosticar correctamente y salvar la vida a una paciente aquejada de una rara enfermedad africana gracias a un sistema experto sobre enfermedades infecciosas llamado GIDEON. De no haber sido por este sistema el médico no habría podido dar con el medicamento necesario para combatir la infección.

Tal vez estén pensando que la solución ideal consista en mezclar ambos mundos. Si combinamos expertos y algoritmos ¿obtendremos mejores resultados? De acuerdo con Ian Ayres, por lo general las personas hacen mejores predicciones cuando se les informa de los resultados de una predicción estadística. Sin embargo, incluso con esa ayuda sus predicciones son peores que las del modelo matemático a solas. Cuando el humano y la máquina no están de acuerdo, usualmente es mejor atenerse a la decisión de la predicción estadística.

¿Y si limitamos la intervención humana a identificar los casos de «piernas rotas», de manera que sea una persona la que decida si hay que optar por seguir la decisión del algoritmo, o bien omitirla y hacer caso al juicio experto? El problema en estos casos es que la gente ve piernas rotas por todas partes:

In context after context, decision makers who wave off the statistical predictions tend to make poorer decisions. The expert override doesn’t do worse when a true broken leg event occurs. Still, experts are overconfident in their ability to beat the system. We tend to think that the restraints are useful for the other guy but not for us. So we don’t limit our overrides to the clear cases where the formula is wrong; we override where we think we know better. And that’s when we get in trouble.

Las dos soluciones anteriores sitúan al humano por encima o al mismo nivel que la máquina. Sin embargo, si lo que queremos es el mejor diagnóstico o la mejor predicción posible, parece que la forma de lograrlo es supeditar el hombre a la máquina. Por ejemplo, en 2005 dos veinteañeros ganaron un torneo de ajedrez utilizando tres programas simultáneamente para decidir sus movimientos. En lugar de postularse como jugadores se relegaron a sí mismos a un segundo plano como entrenadores:

In 2005, the Web site ChessBase.com, hosted a “freestyle” chess tournament: players were free to supplement their own insight with any computer program or programs that they liked, and to solicit advice over the Internet. Although several grandmasters entered the tournament, it was won neither by the strongest human players nor by those using the most highly regarded software, but by a pair of twentysomething amateurs from New Hampshire, Steven Cramton and Zackary “ZakS” Stephen, who surveyed a combination of three computer programs to determine their moves. Cramton and Stephen won because they were neither awed nor intimidated by technology. They knew the strengths and weakness of each program and acted less as players than as coaches.

En varios estudios, la mejor forma de explotar el conocimiento de los expertos fue añadir su evaluación como un factor más a considerar por el algoritmo. De esta manera los ordenadores pueden tener en cuenta aquellas informaciones que los humanos identifican mejor y así el porcentaje de acierto es mayor.

Hoy día todos somos conscientes de que si queremos cálculos rápidos y exactos hemos de recurrir a un ordenador en lugar de a un cerebro humano. También damos por sentado que si necesitamos conocer ciertos datos, como el origen de una palabra, una fecha histórica o el creador de una obra artística terminaremos antes buscándolo en Google que preguntando a nuestros conocidos. Es de suponer que, conforme la tecnología vaya mejorando y expandiéndose, las nuevas generaciones crezcan asumiendo que los ordenadores hacen mejores predicciones que los humanos. Actualmente, nadie se extraña de que las calificaciones de riesgo crediticio las haga un ordenador, cuando hasta hace no mucho esa era una tarea humana. En el futuro, quizá ocurra lo mismo con el diagnóstico clínico.

lunes, 27 de julio de 2015

Inteligencia artificial

Era la primera partida de las seis que se jugaron en 1997. Deep Blue*, jugando con negras, iba perdiendo. Kasparov había logrado sacar al ordenador de su juego basado en una inmensa base de datos de posiciones conocidas, forzándole a utilizar su heurística para continuar la partida. En su cuadragésimo turno, Deep Blue hizo algo muy extraño: movió su torre a la primera fila de las blancas en lugar de hacer jaque al rey de Kasparov, que era lo esperable. La jugada de su contrincante permitía al ruso avanzar con sus peones hacia la primera fila de las negras y obtener una reina. Más sorprendentemente aún, Deep Blue se rindió en el siguiente turno.

Fuente: (Silver, 2012)

De vuelta en su hotel aquella noche, Kasparov no dejaba de preguntarse cómo era posible que Deep Blue hubiera cometido un error táctico de tal magnitud en una posición tan simple; era el tipo de error que los ordenadores no cometen. Revisando los datos, el campeón mundial encontró que la jugada convencional (mover la torre para hacer jaque al rey blanco) no era un buen movimiento en realidad: a la larga hubiera significado la victoria de Kasparov, si bien se necesitarían más de veinte movimientos para llegar a ello. El gran maestro dedujo que la única razón por la que Deep Blue había optado por otro movimiento era que había encontrado otra secuencia más larga de movimientos que llevaran al jaque mate. Con una secuencia más larga Deep Blue quizá habría podido forzar tablas, pues cuantos más movimientos tienen lugar mayor es la posibilidad de que el humano se equivoque en un turno dado (los grandes jugadores cometen errores graves alrededor de una vez cada setenta y cinco movimientos). Pero si eso era cierto, si Deep Blue había dado con una secuencia más larga de movimientos, significaba que el ordenador podía anticiparse más de veinte movimientos, cuando se pensaba que su límite estaba entre seis y ocho. Esa aparente superioridad de la máquina afectó a Kasparov en el resto del encuentro. Nunca más ganó a Deep Blue. El célebre ajedrecista se rindió en la segunda partida, consiguió un empate en las tres siguientes y, finalmente, perdió la sexta.

Hoy día contamos con algo mejor que los expertos de carne y hueso: algoritmos e inteligencia artificial. Sea dicho de antemano que, en mi humilde opinión (no soy ningún experto en la materia), la inteligencia artificial aún es muy primitiva y estamos lejos de la singularidad. Sin embargo, hay cuestiones en las que los algoritmos rinden mejor que los expertos de forma consistente y por amplio margen. Allá por 1990, el profesor de economía de Princeton Orley Ashenfelter, utilizando regresión lineal, tuvo más éxito en sus predicciones sobre el valor futuro de los vinos de Burdeos que el experto en vinos Robert Parker. Bill James usó la estadística para aupar a un equipo de béisbol de bajo presupuesto, los Oakland Athletics, a las Series Mundiales (actualmente, el uso de la estadística se ha extendido a múltiples deportes). Algoritmos sencillos baten por goleada a los humanos en lo que a predicciones políticas se refiere. Existen fórmulas para predecir éxitos de taquilla, determinar qué empleados quieren abandonar la empresa o qué clientes son más proclives a no devolver un préstamo. Deep Blue venció a Kasparov y Watson a los mejores concursantes de Jeopardy. Algoritmos de diagnóstico sencillos como el test de Apgar han salvado miles de vidas de las intuiciones fallidas de los galenos. Y así siguiendo.

Fue el psicólogo Paul Meehl quien abrió la veda de los expertos a mediados del siglo pasado al publicar un libro en el que informaba de que las predicciones hechas por profesionales experimentados eran menos acertadas que las hechas con un algoritmo o fórmula:

Way back in 1954, Paul Meehl wrote a book called Clinical Versus Statistical Prediction. This slim volume created a storm of controversy among psychologists because it reported the results of about twenty other empirical studies that compared how well “clinical” experts could predict relative to simple statistical models. The studies concerned a diverse set of predictions, such as how patients with schizophrenia would respond to electroshock therapy or how prisoners would respond to parole. Meehl’s startling finding was that none of the studies suggested that experts could outpredict statistical equations.

Durante los cincuenta años siguientes se han llevado a acabo docenas de estudios comparando el éxito en la toma de decisiones de los expertos frente a los métodos estadísticos en un amplia variedad de campos. La conclusión no ha cambiado, pues los algoritmos superan de manera significativa a los expertos (ibídem):

Near the end of his life, Meehl, together with Minnesota protégé William Grove, completed a “meta” analysis of 136 of these man-versus-machine studies. In only 8 of 136 studies was expert prediction found to be appreciably more accurate than statistical prediction. The rest of the studies were equally divided between those where statistical prediction “decisively outperformed” expert prediction, and those where the accuracy was not appreciably different. Overall, when asked to make binary predictions, the average expert in these wildly diverse fields got it right about two-thirds of the time (66.5 percent). The Super Crunchers, however, had a success rate that was almost three-quarters (73.2 percent).

Existen varias razones que explican por qué los humanos somos inferiores a los algoritmos cuando se trata de predecir o de tomar decisiones. Para empezar, tal como explica Kahneman:

Una razón [...] es que los expertos tratan de pasar por listos, piensan fuera de la realidad y, para hacer sus predicciones, consideran complejas combinaciones de factores. La complejidad puede contar en los casos raros, pero lo más frecuente es que reduzca la validez.

[...] Otra razón de la inferioridad del juicio experto es que los humanos son incorregiblemente inconsistentes cuando hacen juicios sumarios sobre información compleja. Cuando se les pide evaluar dos veces la misma información, frecuentemente dan respuestas diferentes.

Otro factor relacionado con la psique humana es que, en general, los métodos estadísticos hacen mucho mejor trabajo cuando se trata de elegir qué factores han de tenerse en cuenta a la hora de hacer una predicción o tomar una decisión. También son mejores que las personas asignando pesos a cada factor individual. Según Ayres, incluso ecuaciones simples y poco refinadas son mejores que los humanos.

Por otro lado, se dan factores de método. Por ejemplo, los expertos de carne y hueso no suelen llevar un registro de sus errores y aciertos (de hecho, tienden a recordar solo sus aciertos). Por contra, la validez de los algoritmos es puesta a prueba constantemente con conjuntos de datos reservados para ello y con los nuevos datos que se van generando. Los algoritmos se van refinando y mejoran continuamente; los expertos, no. Adicionalmente, un algoritmo puede darnos una respuesta probabilística (hay un sesenta por ciento de probabilidades de que llueva mañana), lo cual nos permite actuar en consecuencia. Por el contrario, los expertos (especialmente aquellos que aparecen en los medios de comunicación) normalmente hacen afirmaciones simplistas, cerradas y definitivas. Para mayor escarnio, se muestran excesivamente confiados en sus afirmaciones, tal como explicamos en el artículo anterior (el dogmatismo es una vía rápida hacia el error). Los procedimientos estadísticos no solo predicen, sino que también nos dicen qué calidad tiene dicha predicción.

Finalmente, a diferencia de los expertos, la inteligencia artificial no tiene ego ni sentimientos. Esto es muy importante para tomar decisiones no sesgadas (por ejemplo, influidos por el miedo o nuestras opiniones políticas), así como para cambiar nuestras predicciones o nuestro método según vamos recopilando más datos. Mientras que un algoritmo puede ser cien por cien bayesiano, lo que le permite adaptarse, recalcular y asignar nuevos pesos a los factores en los que se basa su decisión para hacer mejores predicciones, las personas, como vimos, en lugar de modificar nuestras creencias modificamos o desechamos los datos que no cuadran con nuestra opinión.

Como ocurre con todo programa informático, durante el desarrollo de Deep Blue sus creadores dedicaron mucho tiempo a solucionar fallos o bugs. Cuando el ordenador hacía un movimiento chocante o estúpido los programadores revisaban el código en busca de la causa y lo corregían. Conforme se eliminaban los bugs y Deep Blue se iba haciendo mejor jugador, cada vez estaba menos claro si esos movimiento insólitos se debían a un error en el programa o a que la máquina había identificado una jugada mejor que había escapado al ojo experto. No obstante, lo que ocurrió en aquella primera partida con Kasparov no fue una genialidad de Deep Blue, sino un error. No es que el programa pudiera predecir más de veinte movimientos; simplemente, sus creadores habían dejado un fallo sin arreglar. De hecho, el error se debió precisamente a que Deep Blue fue incapaz en ese turno de decidirse por el siguiente movimiento (énfasis en el original):

The bug had arisen on the forty-fourth move of their first game against Kasparov; unable to select a move, the program had defaulted to a last-resort fail-safe in which it picked a play completely at random. The bug had been inconsequential, coming late in the game in a position that had already been lost; Campbell and team repaired it the next day. “We had seen it once before, in a test game played earlier in 1997, and thought that it was fixed,” he told me. “Unfortunately there was one case that we had missed.”

Kasparov sobrestimó las capacidades de Deep Blue y lo acabó pagando con la derrota. En general, la falibilidad de la inteligencia artificial abre un gran abanico de posibles maneras en la que podemos acabar perjudicados. Como habrán adivinado sin necesidad de ningún algoritmo, hablaremos sobre ello.

* La historia de Deep Blue y Kasparov está tomada del libro de Nate Silver The Signal and the Noise: Why So Many Predictions Fail - But Some Don't.