Meditaciones: inteligencia artificial

Mostrando entradas con la etiqueta inteligencia artificial. Mostrar todas las entradas

lunes, 28 de marzo de 2016

Estupidez natural

Pedro Domingos es un profesor de la Universidad de Washington bastante conocido en el ámbito del machine learning, una disciplina que mezcla inteligencia artificial con matemáticas estadísticas. El año pasado se publicó su primer libro para el gran público, obra que terminé de leer recientemente. Quiso la casualidad que poco después tuviera el enfrentamiento entre Lee Sedol y AlphaGo. Sedol es el mejor jugador del mundo de Go, un juego de tablero para dos personas originario de China y muy popular en Japón. Investigadores de Google crearon el mencionado programa de ordenador con la intención de batirle, igual que sucedió en su día con Gary Kasparov y Deep Blue. Como probablemente ya sepan, el resultado final fue de cuatro victorias para AlphaGo y una para Sedol.

Foto de Sean Davis

Esta semana la inteligencia artificial ha vuelto a ser noticia debido a un experimento que hubo de interrumpirse prematuramente. El pasado miércoles la gente de Microsoft activó Tay, un programa de conversación por Twitter que tenía como fin hablar y entretener al público estadounidense de dieciocho a veinticuatro años a través de Twitter. Tay no solo imitaba la forma de expresarse de su población objetivo, sino que era capaz de aprender de las conversaciones que tenía, de manera que cuanto más hablaba más lista se volvía. O esa era la idea, al menos.

A estas alturas ya sabrán (o imaginarán) cómo acabó el experimento. En apenas veinticuatro horas, Tay se convirtió en una racista que publicó tuits apoyando a Hitler y negando el holocausto, además de abogar por la muerte de todas las feministas y otras lindeces por el estilo. Microsoft tuvo que detener el experimento y, de momento, si intentan hablar con Tay les dirá que está en su actualización anual con los ingenieros.

El año pasado hablamos bastante sobre inteligencia artificial. Como ya dijimos, actualmente los algoritmos nos rodean:

You may not know it, but machine learning is all around you. When you type a query into a search engine, it’s how the engine figures out which results to show you (and which ads, as well). When you read your e-mail, you don’t see most of the spam, because machine learning filtered it out. Go to Amazon.com to buy a book or Netflix to watch a video, and a machine-learning system helpfully recommends some you might like. Facebook uses machine learning to decide which updates to show you, and Twitter does the same for tweets. Whenever you use a computer, chances are machine learning is involved somewhere.

Existen muchísimos algoritmos de aprendizaje, y cada año aparecen cientos de ellos más. A grandes rasgos, todos se agrupan en cinco grandes familias o «tribus» (ibídem Domingos):

Symbolists view learning as the inverse of deduction and take ideas from philosophy, psychology, and logic. Connectionists reverse engineer the brain and are inspired by neuroscience and physics. Evolutionaries simulate evolution on the computer and draw on genetics and evolutionary biology. Bayesians believe learning is a form of probabilistic inference and have their roots in statistics. Analogizers learn by extrapolating from similarity judgments and are influenced by psychology and mathematical optimization.

Aunque no todos los algoritmos funcionan igual sí que tienen en común una fase inicial de entrenamiento en la que se alimenta al algoritmo con un conjunto de datos que contienen aquello que queremos aprender. Por ejemplo, se le pueden proporcionar correos electrónicos etiquetados según sean o no correo basura para que el algoritmo pueda aprender a distinguirlos. También se le pueden proporcionar fotografías para que sea capaz de reconocer caras. O, como el caso de Tay, los datos de entrenamiento pueden ser tuits con los que el algoritmo aprenda cómo se expresan los jóvenes y qué piensan.

Los algoritmos de aprendizaje intentan hacer generalizaciones a partir de los datos con los que son entrenados, pero están limitados al contenido de dichos datos. Si a nuestro programa de detección de spam no le damos ningún correo de ese tipo, será incapaz de detectarlos. De la misma forma, si los datos con los que entrenamos nuestro programa de conversación contienen mensajes xenófobos, eso será lo que aprenda y acabe diciendo.

Que los modelos de machine learning dependan de los datos con los que son entrenados significa que no son neutrales, sino que incorporan el sesgo de sus creadores. Imaginen que alguien quiere crear un robot economista para descubrir nuevas formas de mejor la economía, al estilo de los algoritmos que diseñan nuevas antenas o teoremas matemáticos. Para poder entrenarlo habría que proporcionarle un montón de datos sobre países cuyas economías van bien y otros que van mal. Ahí es donde empezarían los problemas, pues alcanzar un consenso sobre lo que es una economía «buena» es mucho más difícil de lo que parece. Por ejemplo, algunos economistas piensan que la inflación debería ser del dos por ciento (esa es la misión del BCE), otros creen que del cuatro, y otros piensan que la inflación es mala siempre. Una discusión similar podría tener lugar acerca del déficit fiscal o la tasa de paro. Por tanto, los datos de entrenamiento estarán sesgados de un modo u otro. Como resultado, nuestro robot también lo estará.

Esta falta de objetividad nos hace ver por qué es tan peliagudo dejar en manos de un robot ciertas tareas como, pongamos por caso, apretar el gatillo. En principio, sería posible enseñarle a una máquina la ética suficiente para que pudiera tomar sus propias decisiones (ibídem Domingos):

First, teach the robot to recognize the relevant concepts, for example with data sets of situations where civilians were and were not spared, armed response was and was not proportional, and so on. Then give it a code of conduct in the form of rules involving these concepts. Finally, let the robot learn how to apply the code by observing humans: the soldier opened fire in this case but not in that case. By generalizing from these examples, the robot can learn an end-to-end model of ethical decision making [...]. Once the robot’s decisions agree with a human’s as often as one human agrees with another, the training is complete, meaning the model is ready for download into thousands of robot brains. Unlike humans, robots don’t lose their heads in the heat of combat. If a robot malfunctions, the manufacturer is responsible. If it makes a wrong call, its teachers are.

Pero esto tendría el problema evidente puesto de manifiesto por el robot de Microsoft: los humanos no siempre son unos profesores de fiar. Si, verbigracia, nuestro robot aprendiera a disparar viendo vídeos de la policía estadounidense acabaría matando a mucha gente, con un sesgo negativo hacia los jóvenes negros.

Deberíamos, por tanto, entrenar al robot de forma supervisada. Sin embargo, ello nos lleva de nuevo al problema anterior, en el que no hay acuerdo sobre lo correcto y lo incorrecto. La moral es un área repleta de casos límite, zonas grises y principios contradictorios en el que no existen respuestas objetivamente correctas. Si entrenamos de forma supervisada al robot, dándole ejemplos y especificando si el disparo fue correcto o no, estaremos introduciendo el sesgo de nuestra propia ética (ibídem Domingos):

We can clean up the training data by including only the examples where, say, a panel of ethicists agrees that the soldier made the right decision, and the panelists can also inspect and tweak the model post-learning to their satisfaction. Agreement may be hard to reach, however, particularly if the panel includes all the different kinds of people it should. Teaching ethics to robots, with their logical minds and lack of baggage, will force us to examine our assumptions and sort out our contradictions. In this, as in many other areas, the greatest benefit of machine learning may ultimately be not what the machines learn but what we learn by teaching them.

A estas horas, los ingenieros de Tay todavía están implentando en ella algo de corrección política. En otras palabras, están censurando los mensajes que el robot puede emitir. Eso quiere decir que, en lo sucesivo, Tay no podrá aprender cualquier cosa como hacía hasta ahora, sino lo que encaje con sus prejuicios. Igualito que los seres humanos.

lunes, 10 de agosto de 2015

Rage against the machine

Mark Court es uno de los trabajadores más especializados del planeta. Su trabajo consiste en una sola tarea: dibujar una línea horizontal a mano. Eso es todo. Así es como se gana la vida, dibujando una línea tras otra, cada una igual a la anterior, una y otra vez. El único inconveniente es que la línea ha de ser perfecta. Un error suyo le puede costar a la compañía más de trescientos mil euros.

Court es el encargado de dibujar la línea horizontal (coach line) que decora los laterales de los coches de la marca Rolls-Royce. Este artista emplea alrededor de tres horas en pintar la línea en cuestión, de seis metros de largo a cada lado. Como digo, no puede equivocarse. Le llevó cinco años aprender su labor.

Supe de la existencia de Mark Court gracias a un documental que vi por casualidad sobre la fabricación de los lujosos coches de la célebre marca británica. Casi todo el proceso de ensamblado se hace a mano, lo que explica buena parte del elevado precio de estos automóviles. De todos los pasos el que más me llamó la atención fue este del dibujado de la línea pues pienso (como otras personas con las que comenté el documental) que un robot podría hacerlo mejor y más rápido. Los robots no se cansan, no les tiembla el pulso y pueden tener una precisión mucho mayor que cualquier humano, razones todas ellas por las que algunos procedimientos quirúrgicos han dejado de hacerse a mano.

El mismo dibujo puede tener dos interpretaciones distintas según su creador. Si es obra de Mark Court, hablamos de arte. Si es fruto de un proceso de fabricación automatizado, es una recta más, sin nada de especial. A la hora de elegir, son muchos los que prefieren lo «hecho a mano», lo artesanal, lo «natural». De acuerdo con Daniel Kahneman, este sesgo es una de las razones que explica nuestra hostilidad hacia los algoritmos:

Cuando un ser humano compite con una máquina, sea John Henry con el martillo de vapor en la montaña o el genio del ajedrez Garry Kaspárov enfrentado a la computadora Deep Blue, nuestras simpatías están con nuestro semejante. La aversión a los algoritmos que toman decisiones que afectan a los seres humanos está arraigada en la clara preferencia que muchas personas tienen por lo natural frente a lo sintético o artificial. Si se les preguntara si comerían antes una manzana cultivada con abono orgánico que otra cultivada con fertilizantes artificiales, la mayoría de ellas preferirían la manzana «cien por cien natural». Incluso después de informarles de que las dos manzanas tienen el mismo sabor y el mismo valor nutritivo, y son iguales de sanas, la mayoría preferirían la manzana natural.

Parece que no solo nos importa el producto final, sino cómo ha sido fabricado. De igual manera, cuando se cometen errores la causa de los mismos se nos antoja relevante. ¿Acaso no habría diferentes reacciones en la opinión pública si un paciente muriese por no haber recibido tratamiento, según si dicha decisión fuera obra de un médico o de un algoritmo? Esta es la segunda razón por las que muchos son reacios a utilizar métodos estadísticos cuando se trata de tomar decisiones transcendentales que afectan a las personas (ibídem Kahneman):

El prejuicio contra los algoritmos aumenta cuando las decisiones son trascendentales. Meehl comentó: «No sé cómo atenuar el horror que algunos clínicos parecen experimentar cuando prevén que se vaya a negar el tratamiento a un caso tratable porque una ecuación “ciega y mecánica” lo desclasifique». [...] [P]ara la mayoría de las personas, la causa de un error es importante. El caso de un niño que muera porque un algoritmo ha cometido un error es más penoso que el de la misma tragedia producida a consecuencia de un error humano, y la diferencia de intensidad emocional es traducida enseguida a preferencia moral.

Sin embargo, tal como arguyen los partidarios de los algoritmos, si disponemos de un método que comete menos errores que los expertos ¿no estamos moralmente obligados a usarlo? Como tantos otros argumentos racionales, este se enfrenta a realidades psicológicas pertinaces que inclinan la balanza a favor de la irracionalidad.

Los Rolls-Royce no son los únicos coches que se fabrican a mano total o parcialmente. Según este artículo, BMW, Porsche, Ford y Volkswagen confían en las manos y los ojos de sus empleados para ciertas tareas. Escribe el autor del artículo:

[P]ara los coches de más valor los fabricantes confían en las manos de sus trabajadores. A pesar de la proliferación de los robots, una persona es la que debe controlar la máquina y controlar los procesos de calidad en la cadena.

Esa es una idea que analizamos someramente en el pasado artículo, la del humano controlando a la máquina. Vimos que las pruebas apuntan a que, si queremos obtener las mejores decisiones o predicciones, lo mejor es dejar sola a la máquina. No obstante, para muchos es inconcebible someterse a una inteligencia artificial sin tener la opción de desactivarla u omitirla a discreción. Por desgracia, tener esa opción puede causarnos verdaderos problemas, pues nos pasamos de listos con demasiada frecuencia. Ian Ayres, autor de Super Crunchers, cuenta la historia de un comité de libertad condicional que decidió liberar a un recluso ignorando su puntuación en un sistema que el tribunal utilizaba para calcular el riesgo de reincidencia llamado RRASOR (Rapid Risk Assessment for Sexual Offender Recidivism). El delincuente en cuestión, Paul Herman Clouston, había sido condenado –entre otras cosas– por agresión sexual con agravante, secuestro y asaltos a menores. Tan pronto como fue liberado, huyó, convirtiéndose en uno de los hombres más buscados del estado de Virginia. Su riesgo de reincidencia según el sistema RRASOR era de cuatro sobre cinco, lo que significaba que tenía más del cincuenta y cinco por ciento de probabilidades de cometer otro crimen sexual en los diez años siguientes a su liberación. Fue capturado en 2010. No he podido averiguar si cometió algún crimen durante el tiempo que estuvo fugado.

En mi opinión, el mayor escollo al que se enfrenta la adopción de los algoritmos tiene que ver con nuestra experiencia diaria de la tecnología y de la inteligencia artificial. Nuestros ordenadores y teléfonos «inteligentes» se bloquean, nos obligan a reiniciarlos y hacen cosas raras, como perder la conexión a internet sin venir a cuento. Intentar seleccionar texto en un dispositivo móvil es capaz de hacer aflorar lo peor de cada persona. Yo trabajo con ordenadores a diario y a menudo tengo ganas de estampar el portátil contra la pared, un sentimiento que, a juzgar por los gritos de mis compañeros y los golpes furibundos a la tecla «Intro», es bastante común. No es raro que la ira hacia las máquinas se manifieste físicamente.

Además de los fallos en el funcionamiento diario, a menudo nos encontramos con que la inteligencia artificial no es nada inteligente, como ese algoritmo que no distinguía un leopardo de un sofá, o Siri, el asistente virtual de Apple, que hace cosas como esta:


Fuente: Reddit

Mientras la tecnología no sea perfecta siempre tendremos nuestras reservas. Por tanto, mucho me temo que dichas reservas nunca desaparecerán. Los algoritmos pueden darnos soluciones pero, incluso aunque sean perfectos en sus aciertos, plantean nuevos problemas y riesgos. Por ejemplo, cuando nos enfrentamos a un problema para el que hay pocos precedentes o ninguno, las soluciones basadas en estadísticas son inútiles. También pueden ser de poca ayuda si no podemos registrar los datos pertinentes (es relativamente fácil llevar un registro de cada clic hecho por los visitantes de nuestra tienda virtual pero no lo es tanto registrar síntomas físicos o sensaciones subjetivas). Cuando se trata de hacer predicciones, es posible que los algoritmos sean totalmente inútiles en sistemas reflexivos como la economía, donde las predicciones sobre el devenir de los acontecimientos influyen en los eventos futuros.

Asimismo, puede ocurrir que la rígida dependencia de los algoritmos mine nuestra creatividad. Nuestros sesgos y puntos ciegos se replicarán en nuestros programas. Habrá ocasiones en que no podremos distinguir un error del programa de una genialidad, como ocurría con Deep Blue. Puede darse el caso de que el modelo sea muy bueno pero no sepamos cómo toma las decisiones que toma. Y siempre habrá dilemas morales a los que enfrentarse, como los suscitados por aquel padre que se enteró de que su hija estaba embarazada cuando la empresa Target le mandó ofertas especiales para futuras madres a su hija; los algoritmos de análisis de Target detectaron cambios en los hábitos de compra de la adolescente y predijeron correctamente que había quedado encinta. La tecnología también abre la puerta a la realización de viejos experimentos mentales filosóficos. Por ejemplo, ¿debe un coche autónomo sacrificar a su pasajero en un accidente si con ello salva la vida de cinco ocupantes de otro vehículo de la carretera?

Nate Silver observa en su obra (de donde he tomado el título para esta entrada) que nosotros mismos somos la mayor limitación a la tecnología. El ritmo de la evolución natural queda muy por detrás en comparación con el de la evolución tecnológica y nuestro cerebro no está preparado para trabajar en un mundo inundado de datos: vemos patrones donde solo hay ruido y damos demasiada importancia a correlaciones espurias. Al igual que este autor, creo que debemos ver la tecnología como lo que siempre ha sido: una herramienta para mejorar la condición humana. Por un lado, no debemos profesarle culto como a un dios ni someternos a ella sin pensar. Pienso que debemos mostrar cierto escepticismo ante la idea promulgada por autores como Matt Ridley de que la tecnología resolverá todos nuestros problemas. Por otra parte, también creo que no debemos luchar contra la misma como si fuera el mismo diablo, negando sus ventajas por principio y asumiendo que una tarea la hacemos mejor nosotros por el mero hecho de ser humanos. Y, por supuesto, no tiene por qué asustarnos el adjetivo «artificial». Como dice Silver: «computers are themselves a reflection of human progress and human ingenuity: it is not really “artificial” intelligence if a human designed the artifice».

lunes, 3 de agosto de 2015

Luditas 2.0

Imaginen que tienen un problema de salud y reciben dos diagnósticos, uno de ellos realizado por un doctor de carne y hueso y el otro por un programa de ordenador. Los diagnósticos no coinciden y los tratamientos son totalmente diferentes. ¿Con cuál se quedarían?

El diagnóstico médico parece un problema demasiado complejo como para que una máquina pueda resolverlo. Sirvan como muestra las palabras del cirujano Atul Gawande:

La mayoría de los facultativos cree que el diagnóstico no puede reducirse a una serie de generalizaciones, a un «libro de recetas de cocina», como dicen algunos. Argumentan que deben tenerse en cuenta las características de cada paciente.

Esto es algo obvio. Cuando soy el especialista de cirugía en la unidad de urgencias, me suelen pedir que evalúe si un paciente con dolor abdominal tiene apendicitis. Escucho con atención su historia y considero multitud de factores: cómo noto su abdomen, el tipo de dolor y su localización, la temperatura del paciente, el apetito, los análisis. Pero no lo reduzco todo en una fórmula y calculo el resultado. Utilizo mi criterio clínico, mi intuición para decidir si hay que operarle, tenerle en el hospital en observación o enviarle a casa.

Y así, concluye:

Ninguna fórmula puede tener en cuenta la infinita variedad de sucesos excepcionales que pueden darse. Éste es el motivo por el que los médicos están convencidos de que es mejor mantenerse fial a sus instintos a la hora de realizar un diagnóstico.

En este mismo sentido, existen médicos que se muestran cautelosos cuando se trata de aplicar la medicina basada en pruebas, la cual, por su propia naturaleza, está basada en la estadística:

Las estadísticas no pueden sustituir al ser humano que uno tiene delante; las estadísticas se refieren a una media, no a los individuos. Los números sólo pueden complementar la experiencia personal del médico con un fármaco o un procedimiento, así como su conocimiento sobre si un tratamiento «mejor» de un ensayo clínico convendría a las necesidades y características especiales de un paciente.

También cabe argumentar que los métodos matemáticos no son útiles en casos fuera de lo normal:

Los algoritmos clínicos pueden ser útiles para diagnósticos y tratamientos corrientes, por ejemplo, distinguir la infección de garganta por estreptococos de la faringitis viral. Sin embargo, se desmoronan rápidamente cuando un médico necesita pensar más allá de los recuadros, cuando los síntomas son vagos, o múltiples y confusos, o cuando los resultados de las pruebas son inexactos. En esos casos –aquellos donde más falta hace un médico con capacidad de discernimiento– los algoritmos impiden a los médicos pensar con independencia y creatividad. En lugar de expandir el pensamiento de un médico, acaban por limitarlo.

Finalmente, es posible que Deep Blue batiera a Kasparov, pero el diagnóstico clínico no es un juego de reglas fijas:

[El ajedrez] es un juego complejo, pero es bidimensional y está basado en reglas fijas y claras, con piezas que nunca varían. El diagnóstico de pacientes por el contrario, tiene cuatro dimensiones (reúne las tres dimensiones espaciales y la cuarta dimensión del tiempo), no tiene reglas invariables e implica «piezas» (cuerpos) que no son iguales.

Imagen de 219Eastern

Todos estos razonamientos tan convincentes asoman la cabeza cada vez que un algoritmo rinde mejor que los expertos de carne y hueso. Los resultados de Paul Meehl sobre la superioridad de los algoritmos frente a los humanos en el diagnóstico clínico fueron recibidos con hostilidad e incredulidad. El método estadístico era criticado como mecánico, artificial, irreal, arbitrario, incompleto, estéril y otras lindeces por el estilo. Los sumillers rechazaron la fórmula de Ashenfelter bajo la premisa de que sus conclusiones eran ridículas y absurdas, pues juzgar un vino sin probarlo era como calificar una película sin haberla visto. Los ojeadores y los entrenadores deportivos siguen confiando en su instinto. Y así un largo etcétera, a pesar de las pruebas que sustentan la superioridad de los métodos matemáticos.

Sospecho que cualquier persona que se enfrente al hecho de que parte de su trabajo puede hacerlo mejor una inteligencia artificial mostraría el mismo rechazo. Para un profesional especializado, alguien consciente de toda la complejidad, los matices y las posibilidades de su campo de conocimiento es difícil asumir que todo eso pueda reducirse a una simple ecuación. Pero, como vimos en el artículo anterior, la complejidad no solo no da ventaja al experto frente al algoritmo, sino que es precisamente la causa del error humano. Por muy razonables que suenen su argumentos en contra, en la práctica lo más frecuente es que una simple combinación de factores con los pesos adecuados supere al juicio de un experto.

Si bien es la complejidad lo que lleva a los expertos a equivocarse normalmente, lo cierto es que en raras ocasiones dicha complejidad sí que cuenta. Supongan, verbigracia, que una fórmula predice que Cristiano Ronaldo marcará dos goles en el próximo partido. Supongan, además, que la fórmula es fiable al noventa y nueve por ciento. Entran en un portal de apuestas por internet para ganarse un dinerito extra con dicha información y ahí, en la sección de noticias, se encuentran con el siguiente titular: «Cristiano Ronaldo sufre una rotura de ligamentos en su rodilla y será baja durante tres semanas». ¿Procederían con su apuesta? Obviamente no. Si Ronaldo no puede jugar, da igual lo que diga la fórmula. Este supuesto se conoce como «el problema de la pierna rota»:

To cede complete decision-making power to lock up a human to a statistical algorithm is in many ways unthinkable. Complete deference to statistical prediction in this or other contexts would almost certainly lead to the odd decision that at times we “know” is going to be wrong. Indeed, Paul Meehl long ago worried about the “case of the broken leg.”
[...] A statistical procedure cannot estimate the causal impact of rare events (like broken legs) because there simply aren’t enough data concerning them to make a credible estimate. The rarity of the event doesn’t mean that it will not have a big impact when the event does in fact occur. It just means that statistical formulas will not be able to capture the impact.

Evidentemente, en estas situaciones el algoritmo no sirve de nada. Pero no hemos de olvidar que estos casos son, por definición, infrecuentes (si no lo fueran, estarían contemplados en la fórmula). Por tanto, otorgan un escaso margen de ventaja. En cualquier caso, las observaciones atípicas también pueden dar ventaja a un sistema experto digital en lugar de a un médico. Una base de datos puede almacenar información sobre todas las enfermedades conocidas y sus síntomas, así como recuperar dicha información en segundos. Por contra, un galeno no puede saberlo todo. Cuando una enfermedad es poco común, no es sorprendente que se pase por alto y el diagnóstico sea equivocado. Lisa Sanders cuenta la historia de cómo un médico pudo diagnosticar correctamente y salvar la vida a una paciente aquejada de una rara enfermedad africana gracias a un sistema experto sobre enfermedades infecciosas llamado GIDEON. De no haber sido por este sistema el médico no habría podido dar con el medicamento necesario para combatir la infección.

Tal vez estén pensando que la solución ideal consista en mezclar ambos mundos. Si combinamos expertos y algoritmos ¿obtendremos mejores resultados? De acuerdo con Ian Ayres, por lo general las personas hacen mejores predicciones cuando se les informa de los resultados de una predicción estadística. Sin embargo, incluso con esa ayuda sus predicciones son peores que las del modelo matemático a solas. Cuando el humano y la máquina no están de acuerdo, usualmente es mejor atenerse a la decisión de la predicción estadística.

¿Y si limitamos la intervención humana a identificar los casos de «piernas rotas», de manera que sea una persona la que decida si hay que optar por seguir la decisión del algoritmo, o bien omitirla y hacer caso al juicio experto? El problema en estos casos es que la gente ve piernas rotas por todas partes:

In context after context, decision makers who wave off the statistical predictions tend to make poorer decisions. The expert override doesn’t do worse when a true broken leg event occurs. Still, experts are overconfident in their ability to beat the system. We tend to think that the restraints are useful for the other guy but not for us. So we don’t limit our overrides to the clear cases where the formula is wrong; we override where we think we know better. And that’s when we get in trouble.

Las dos soluciones anteriores sitúan al humano por encima o al mismo nivel que la máquina. Sin embargo, si lo que queremos es el mejor diagnóstico o la mejor predicción posible, parece que la forma de lograrlo es supeditar el hombre a la máquina. Por ejemplo, en 2005 dos veinteañeros ganaron un torneo de ajedrez utilizando tres programas simultáneamente para decidir sus movimientos. En lugar de postularse como jugadores se relegaron a sí mismos a un segundo plano como entrenadores:

In 2005, the Web site ChessBase.com, hosted a “freestyle” chess tournament: players were free to supplement their own insight with any computer program or programs that they liked, and to solicit advice over the Internet. Although several grandmasters entered the tournament, it was won neither by the strongest human players nor by those using the most highly regarded software, but by a pair of twentysomething amateurs from New Hampshire, Steven Cramton and Zackary “ZakS” Stephen, who surveyed a combination of three computer programs to determine their moves. Cramton and Stephen won because they were neither awed nor intimidated by technology. They knew the strengths and weakness of each program and acted less as players than as coaches.

En varios estudios, la mejor forma de explotar el conocimiento de los expertos fue añadir su evaluación como un factor más a considerar por el algoritmo. De esta manera los ordenadores pueden tener en cuenta aquellas informaciones que los humanos identifican mejor y así el porcentaje de acierto es mayor.

Hoy día todos somos conscientes de que si queremos cálculos rápidos y exactos hemos de recurrir a un ordenador en lugar de a un cerebro humano. También damos por sentado que si necesitamos conocer ciertos datos, como el origen de una palabra, una fecha histórica o el creador de una obra artística terminaremos antes buscándolo en Google que preguntando a nuestros conocidos. Es de suponer que, conforme la tecnología vaya mejorando y expandiéndose, las nuevas generaciones crezcan asumiendo que los ordenadores hacen mejores predicciones que los humanos. Actualmente, nadie se extraña de que las calificaciones de riesgo crediticio las haga un ordenador, cuando hasta hace no mucho esa era una tarea humana. En el futuro, quizá ocurra lo mismo con el diagnóstico clínico.

lunes, 27 de julio de 2015

Inteligencia artificial

Era la primera partida de las seis que se jugaron en 1997. Deep Blue*, jugando con negras, iba perdiendo. Kasparov había logrado sacar al ordenador de su juego basado en una inmensa base de datos de posiciones conocidas, forzándole a utilizar su heurística para continuar la partida. En su cuadragésimo turno, Deep Blue hizo algo muy extraño: movió su torre a la primera fila de las blancas en lugar de hacer jaque al rey de Kasparov, que era lo esperable. La jugada de su contrincante permitía al ruso avanzar con sus peones hacia la primera fila de las negras y obtener una reina. Más sorprendentemente aún, Deep Blue se rindió en el siguiente turno.

Fuente: (Silver, 2012)

De vuelta en su hotel aquella noche, Kasparov no dejaba de preguntarse cómo era posible que Deep Blue hubiera cometido un error táctico de tal magnitud en una posición tan simple; era el tipo de error que los ordenadores no cometen. Revisando los datos, el campeón mundial encontró que la jugada convencional (mover la torre para hacer jaque al rey blanco) no era un buen movimiento en realidad: a la larga hubiera significado la victoria de Kasparov, si bien se necesitarían más de veinte movimientos para llegar a ello. El gran maestro dedujo que la única razón por la que Deep Blue había optado por otro movimiento era que había encontrado otra secuencia más larga de movimientos que llevaran al jaque mate. Con una secuencia más larga Deep Blue quizá habría podido forzar tablas, pues cuantos más movimientos tienen lugar mayor es la posibilidad de que el humano se equivoque en un turno dado (los grandes jugadores cometen errores graves alrededor de una vez cada setenta y cinco movimientos). Pero si eso era cierto, si Deep Blue había dado con una secuencia más larga de movimientos, significaba que el ordenador podía anticiparse más de veinte movimientos, cuando se pensaba que su límite estaba entre seis y ocho. Esa aparente superioridad de la máquina afectó a Kasparov en el resto del encuentro. Nunca más ganó a Deep Blue. El célebre ajedrecista se rindió en la segunda partida, consiguió un empate en las tres siguientes y, finalmente, perdió la sexta.

Hoy día contamos con algo mejor que los expertos de carne y hueso: algoritmos e inteligencia artificial. Sea dicho de antemano que, en mi humilde opinión (no soy ningún experto en la materia), la inteligencia artificial aún es muy primitiva y estamos lejos de la singularidad. Sin embargo, hay cuestiones en las que los algoritmos rinden mejor que los expertos de forma consistente y por amplio margen. Allá por 1990, el profesor de economía de Princeton Orley Ashenfelter, utilizando regresión lineal, tuvo más éxito en sus predicciones sobre el valor futuro de los vinos de Burdeos que el experto en vinos Robert Parker. Bill James usó la estadística para aupar a un equipo de béisbol de bajo presupuesto, los Oakland Athletics, a las Series Mundiales (actualmente, el uso de la estadística se ha extendido a múltiples deportes). Algoritmos sencillos baten por goleada a los humanos en lo que a predicciones políticas se refiere. Existen fórmulas para predecir éxitos de taquilla, determinar qué empleados quieren abandonar la empresa o qué clientes son más proclives a no devolver un préstamo. Deep Blue venció a Kasparov y Watson a los mejores concursantes de Jeopardy. Algoritmos de diagnóstico sencillos como el test de Apgar han salvado miles de vidas de las intuiciones fallidas de los galenos. Y así siguiendo.

Fue el psicólogo Paul Meehl quien abrió la veda de los expertos a mediados del siglo pasado al publicar un libro en el que informaba de que las predicciones hechas por profesionales experimentados eran menos acertadas que las hechas con un algoritmo o fórmula:

Way back in 1954, Paul Meehl wrote a book called Clinical Versus Statistical Prediction. This slim volume created a storm of controversy among psychologists because it reported the results of about twenty other empirical studies that compared how well “clinical” experts could predict relative to simple statistical models. The studies concerned a diverse set of predictions, such as how patients with schizophrenia would respond to electroshock therapy or how prisoners would respond to parole. Meehl’s startling finding was that none of the studies suggested that experts could outpredict statistical equations.

Durante los cincuenta años siguientes se han llevado a acabo docenas de estudios comparando el éxito en la toma de decisiones de los expertos frente a los métodos estadísticos en un amplia variedad de campos. La conclusión no ha cambiado, pues los algoritmos superan de manera significativa a los expertos (ibídem):

Near the end of his life, Meehl, together with Minnesota protégé William Grove, completed a “meta” analysis of 136 of these man-versus-machine studies. In only 8 of 136 studies was expert prediction found to be appreciably more accurate than statistical prediction. The rest of the studies were equally divided between those where statistical prediction “decisively outperformed” expert prediction, and those where the accuracy was not appreciably different. Overall, when asked to make binary predictions, the average expert in these wildly diverse fields got it right about two-thirds of the time (66.5 percent). The Super Crunchers, however, had a success rate that was almost three-quarters (73.2 percent).

Existen varias razones que explican por qué los humanos somos inferiores a los algoritmos cuando se trata de predecir o de tomar decisiones. Para empezar, tal como explica Kahneman:

Una razón [...] es que los expertos tratan de pasar por listos, piensan fuera de la realidad y, para hacer sus predicciones, consideran complejas combinaciones de factores. La complejidad puede contar en los casos raros, pero lo más frecuente es que reduzca la validez.

[...] Otra razón de la inferioridad del juicio experto es que los humanos son incorregiblemente inconsistentes cuando hacen juicios sumarios sobre información compleja. Cuando se les pide evaluar dos veces la misma información, frecuentemente dan respuestas diferentes.

Otro factor relacionado con la psique humana es que, en general, los métodos estadísticos hacen mucho mejor trabajo cuando se trata de elegir qué factores han de tenerse en cuenta a la hora de hacer una predicción o tomar una decisión. También son mejores que las personas asignando pesos a cada factor individual. Según Ayres, incluso ecuaciones simples y poco refinadas son mejores que los humanos.

Por otro lado, se dan factores de método. Por ejemplo, los expertos de carne y hueso no suelen llevar un registro de sus errores y aciertos (de hecho, tienden a recordar solo sus aciertos). Por contra, la validez de los algoritmos es puesta a prueba constantemente con conjuntos de datos reservados para ello y con los nuevos datos que se van generando. Los algoritmos se van refinando y mejoran continuamente; los expertos, no. Adicionalmente, un algoritmo puede darnos una respuesta probabilística (hay un sesenta por ciento de probabilidades de que llueva mañana), lo cual nos permite actuar en consecuencia. Por el contrario, los expertos (especialmente aquellos que aparecen en los medios de comunicación) normalmente hacen afirmaciones simplistas, cerradas y definitivas. Para mayor escarnio, se muestran excesivamente confiados en sus afirmaciones, tal como explicamos en el artículo anterior (el dogmatismo es una vía rápida hacia el error). Los procedimientos estadísticos no solo predicen, sino que también nos dicen qué calidad tiene dicha predicción.

Finalmente, a diferencia de los expertos, la inteligencia artificial no tiene ego ni sentimientos. Esto es muy importante para tomar decisiones no sesgadas (por ejemplo, influidos por el miedo o nuestras opiniones políticas), así como para cambiar nuestras predicciones o nuestro método según vamos recopilando más datos. Mientras que un algoritmo puede ser cien por cien bayesiano, lo que le permite adaptarse, recalcular y asignar nuevos pesos a los factores en los que se basa su decisión para hacer mejores predicciones, las personas, como vimos, en lugar de modificar nuestras creencias modificamos o desechamos los datos que no cuadran con nuestra opinión.

Como ocurre con todo programa informático, durante el desarrollo de Deep Blue sus creadores dedicaron mucho tiempo a solucionar fallos o bugs. Cuando el ordenador hacía un movimiento chocante o estúpido los programadores revisaban el código en busca de la causa y lo corregían. Conforme se eliminaban los bugs y Deep Blue se iba haciendo mejor jugador, cada vez estaba menos claro si esos movimiento insólitos se debían a un error en el programa o a que la máquina había identificado una jugada mejor que había escapado al ojo experto. No obstante, lo que ocurrió en aquella primera partida con Kasparov no fue una genialidad de Deep Blue, sino un error. No es que el programa pudiera predecir más de veinte movimientos; simplemente, sus creadores habían dejado un fallo sin arreglar. De hecho, el error se debió precisamente a que Deep Blue fue incapaz en ese turno de decidirse por el siguiente movimiento (énfasis en el original):

The bug had arisen on the forty-fourth move of their first game against Kasparov; unable to select a move, the program had defaulted to a last-resort fail-safe in which it picked a play completely at random. The bug had been inconsequential, coming late in the game in a position that had already been lost; Campbell and team repaired it the next day. “We had seen it once before, in a test game played earlier in 1997, and thought that it was fixed,” he told me. “Unfortunately there was one case that we had missed.”

Kasparov sobrestimó las capacidades de Deep Blue y lo acabó pagando con la derrota. En general, la falibilidad de la inteligencia artificial abre un gran abanico de posibles maneras en la que podemos acabar perjudicados. Como habrán adivinado sin necesidad de ningún algoritmo, hablaremos sobre ello.

* La historia de Deep Blue y Kasparov está tomada del libro de Nate Silver The Signal and the Noise: Why So Many Predictions Fail - But Some Don't.