Les han pillado. Usted y su cómplice. La policía ha descubierto todo,
les han detenido y ahora están en celdas separadas en la comisaría,
sin ninguna posibilidad de comunicar el uno con el otro. El comisario
entra y le dice: "Tenemos suficiente pruebas para condenar a los dos.
Así como están las cosas, os van a caer cinco años cada uno, sin
problema. Pero si los dos confesáis, vamos a considerar la buena
voluntad y la colaboración y os vamos a reducir la sentencia a dos
años. Por otro lado, si uno de los dos confiesa y uno no lo hace,
consideraremos como único responsable el que confiesa. A él le caerán
8 años, y el otro saldrá libre." El comisario le dice que hará la
misma oferta al cómplice, y que cada uno será consciente que el otro
ha recibido esa oferta (y que los dos saben que los dos han recibido
la oferta: los dos tienen exactamente la misma información, y lo
saben).
Usted y su cómplice son dos personas racionales y sin ninguna relación
emocional: su único objetivo es conseguir la menor condena posible.
Que va a hacer? Una manera racional de razonar es la siguiente: "mi
cómplice puede hacer sólo dos cosas: confesar o no confesar. Si él
confiesa, lo mejor para mi es no confesar, dado que así saldré
libre. Si el no confiesa, lo mejor para mi es, también en este caso,
no confesar, dado que si confieso me caen diez años." Basándose en
este razonamiento, decide no confesar.
He dicho que los dos son personas racionales y, dado que su
razonamiento es racional, el cómplice razonará de la misma manera y
decidirá no confesar. Así a los dos les caerán cinco años. Si los dos
hubieran decidido comportarse de manera irracional y confesar, a los
dos les habrían caído sólo dos años. La lógica les ha costado tres
años adicional de cárcel.
Esta paradoja fue descrita y bautizada
prisoner's dilemma (el dilema
del prisionero) en 1950 por Melvin Dresher y Merril Floyd de la RAND
corporation. El dilema se hizo famoso cuando Martin Gardner publicó un
conocido artículo sobre él en el número de Mayo 1983 de
Scientific
American (más tarde Gardner publicó una versión extendida en su
imprescindible libro
Metamagical Themas, una verdadera Biblia de las matemáticas
recreativas). Gardner cambia el escenario describiendo un problema
matemáticamente equivalente que puede ser más fácil de seguir.
Usted dispone una gran cantidad de cierto bien (dinero, por ejemplo) y
quiere cambiarlo por otro bien (diamantes, por ejemplo). Ha contactado
un vendedor y los dos han llegado a un acuerdo de intercambio de
dinero por diamantes que es muy ventajoso para los dos. Por una razón
que no precisamos, el intercambio tiene que mantenerse secreto (quizás
es ilegal, y es por esto que los dos han acabado en la cárcel en el
ejemplo anterior). Los dos no se conocen, y no se han encontrado
nunca. Se ponen de acuerdo que usted deja el dinero en una bolsa un
lugar establecido y al mismo tiempo el vendedor deja los diamantes en
una bolsa en otro lugar. Los dos no se encontrarán nunca, y no habrá
otro intercambio ni otra comunicación.
Hay algo que cada uno de los dos teme: llegar al punto de recogida y
encontrar una bolsa vacía. Si los dos dejan la bolsa llena, el
intercambio será ventajoso para los dos, pero conseguir algo a cambio
de nada es una tentación muy fuerte: ¿y si dejara la bolsa vacía?. De
hecho, puede razonar así: "Si el vendedor ha dejado la bolsa vacía, lo
mejor para mi es dejarla también vacía, para no perder el dinero. Por
otro lado, si el vendedor deja los diamantes, lo mejor para mi es
dejar la bolsa vacía y conseguir los diamantes a cambio de nada".
Mientras tanto, el vendedor habrá hecho el mismo razonamiento que
usted y decidirá dejar la bolsa sin diamantes. Por tanto los dos,
usando su lógica impecable quedarán con las manos vacías. Una pena: si
los dos hubieran dejado de un lado la lógica y colaborado, ahora
habrían llevado a cabo un intercambio ventajoso. Esta es la paradoja
que nos presenta el dilema del prisionero: ¿la lógica impide la
colaboración?
En este caso el problema es la falta de confianza en la lógica de los
demás. Si de verdad asumimos que nuestro cómplice o el vendedor es una
persona tan lógica como nosotros, entonces debemos asumir que,
cualquier decisión tomemos nosotros basada en la lógica, él llegará a
la misma conclusión. Por tanto los dos decidiremos siempre
comportarnos de la misma manera: colaboraremos los dos, o engañaremos
los dos, confesaremos los dos, o callaremos los dos. Dado que la mejor
opción es colaborar los dos, deberíamos decidir colaborar. Pero el
problema, en estos casos, está puesto de manera tal que si uno elige
la lógica y el otro la codicia, el que elige la codicia saldrá
ganando. Y no tenemos suficiente confianza en los demás como para
asumir que el otro seguirá la misma lógica que nosotros.
Una variación muy interesante sobre el tema es el
dilema del
prisionero continuado. Pongámonos otra vez en el intercambio de
dinero con diamantes, pero esta vez usted y el vendedor han concordado
que harán un intercambio cada mes durante un tiempo indeterminado,
digamos durante todo el tiempo en que los dos estarán con vida. Ahora
cada mes usted tendrá que decidir si cooperar (dejar el dinero) o
engañar (dejar una bolsa vacía). El primer mes usted deja una bolsa
llena de dinero y el vendedor deja una bolsa llena de
diamante. Maravilla. Al mes siguiente hay que volver a tomar la
decisión, y así cada mes.
Supongamos que en una ocasión, de repente, el vendedor deja una bolsa
vacía. ¿Qué va a hacer? ¿Ya no se fía de él y no vuelve nunca más a
dejar el dinero? Así perderá para siempre la oportunidad de un
intercambio que es, al fin y al cabo, muy ventajoso. ¿Hacer como si
nada hubiera pasado y dejar el dinero el mes siguiente? ¿No dejarlo el
mes siguiente pero volver a dejarlo si el vendedor vuelve a dejar los
diamantes? Aclaremos, una vez más, que estamos hablando de
comportamiento fríamente lógico y egoísta: usted está cuidando sólo su
interés. Supongamos, por ejemplo, que en algún momento recibe una
información fiable que el vendedor está gravemente enfermo y le quedan
pocos meses de vida. El vendedor no sospecha que usted tiene la
información. En este caso, lo lógico, lo racional, es engañar: el
vendedor no tendrá tiempo suficiente para castigar su
comportamiento. Esto es lo que entendemos por egoísmo lógico.
El problema es muy complicado, pero lo podemos formalizar un poco y
analizarlo matemáticamente mediante la teoría de juegos
o mediante simulaciones con el ordenador. El primer paso es
cuantificar el problema, algo que se puede hacer a través de
una
matriz de pago Una posible matriz de pago para el problema
del intercambio de dinero y diamante es la siguiente (
C quiere
decir "coopera" y
E quiere decir "engaña"):
|
|
Vendedor |
|
|
C |
E |
Yo |
C |
(2,2) |
(-1,4) |
E |
(4, -1) |
(0, 0) |
En esta matriz, si los dos cooperan tendrán una ganancia de 2
puntos (valor arbitrario: la ganancia del intercambio). Si los dos
engañan, la ganancia es cero (nadie recibe nada, todo queda
como estaba). Si usted coopera y el vendedor engaña usted
pierde y consigue -1 puntos, mientras el vendedor recibe 4 (sí:
son muchos... es que es muy placentero recibir algo sin dar nada a
cambio). Claramente, si el vendedor coopera y usted engaña los
papeles son invertido: usted gana 4 puntos y el vendedor pierde
uno. La matriz del juego en la versión del prisonero es la
siguiente (
C quiere decir "confiesa" y
N quiere decir "No
confiesa"):
|
|
Cómplice |
|
|
C |
N |
Yo |
C |
(-2,-2) |
(0,-8) |
N |
(-8,0) |
(-5,-5) |
El juego no cambia sustancialmente si añadimos el mismo valor a
todas las entradas (lo que determina el juego es la diferencia entre
la puntuación de varias opciones). Por tanto podemos
a&ntile;adir un valor a todas las entradas de manera tal que todos los
númers sean positivos o cero. Llaremos
normalizadas
estas matrices. La matriz normalizada para el problema del vendedor es
|
|
Vendedor |
|
|
C |
E |
Yo |
C |
(3,3) |
(0,5) |
E |
(5, 0) |
(1, 1) |
mientras la matrix normalizada para el juego en la versión del
prisonero es
|
|
Cómplice |
|
|
C |
N |
Yo |
C |
(6,6) |
(8,0) |
N |
(0,8) |
(3,3) |
Podemos generar muchas versiones de estos juegos cambiando
oportunamente la matriz de pago. En general, la matriz (normalizada)
tiene la estructura siguiente:
|
|
Cómplice |
|
|
C |
N |
Yo |
C |
(R,R) |
(E,T) |
N |
(T,E) |
(C,C) |
Aquí $R$ es la
recompensa por la cooperación
mútua, $C$ es el
castigo por no cooperar, $T$ es
la
tentación y $E$ es la
paga del estafado.
Para que el juego tenga sentido, los valores tienen que cumplir las
condiciones siguientes:
\begin{equation}
\begin{aligned}
T &> R > C > E \\
\frac{T+G}{2} &< R
\end{aligned}
\end{equation}
La primera condición es la que da peso a la consideració
"lo mejor para mi es engañ:ar, independientemente de lo que hace
el otro", la segunda sostiene que quedarse atrapado en una serie de
alternanzas (este mes yo coopero y tu engañas, el mes siguiente
al revé, y así siguiendo) es peor que cooperar todo el tiempo.
Es fácil ver que una estrategia óptima en todas las
situaciones no existe. Supongamos que la otra parte tenga como
estrategia "Siempre E" (engaña en cada jugada). En este caso la
mejor estrategia es engañar siempre. Por otro lado, supongamos
que el otro tenga como estrategia "voy a cooperar hasta que tu
engañes, luego engañaré siempre". En este caso
nuestra mejor estrategia es cooperar y no engañar nunca.
Para darnos una mejor idea de lo que es una buena estrategia,
imaginemos un territorio con muchos seres que se mueven por él
y, cada vez que se encuentran, juegan un juego del dilema del
prisonero continuado, collecionando y acumulando puntos. En este
sentido una estrategia de cooperación, que hace ganar puntos a
nosotros y al otro jugador, puede er mejor que una estrategia
competitiva, que intenta ganar juegos a costa del otro.
Estas características tocan un tema que, desde Darwin, ha
suscitado mucho interés entre los antropólogos:
¿cómo puede emerger la cooperación en un ambiente en que
la evolución es determinada por la competición, en que
parece que el egoismo debería ser la mejor estrategia? La
paradoja, aparente, puede estar relacionada con el hecho que---en
términos de la teoría de los juegos---el dilema del
prisonero no es un juego a suma cero. Un ejemplo de juego a suma cero
es el poker (el ejemplo es más claro s consideramos sólo
dos jugadores): para que yo gane dinero es necesario que mi adversario
lo pierda, y todo el dinero que gano yo lo pierde mi adversario. La
suma total de dinero no cambia entre el comienzo y el final del juego;
todo lo que puede cambiar es su distibución. El dilema del
prisonero no funciona así: cooperando los dos, yo y mi
adversario ganamos los dos; el total de puntos que tenemos aumenta a
medida de que jugamos el juego.
Estos problemas fueron analizados por Robert Axelrod en un famoso
experimento en 1979, y luego analizados en su libro
The evolution
of cooperation (Basic books, 1984). Axelrod envió
invitaciones a varios expertos en teoría de juegos, incluso
varios que ya habían trabajado con el dilema del prisonero. En
la invitación decía que todos iban a participar en un
torneo
round robin en que cada uno se enfrentaría con
todos los demás (y con un clon de si mismo) unas 200 veces. EL
objetico era acumular cuantos más puntos posible. Los invitados
tenían que enviar un programa (escrito en BASIC... estamos en
1979) que respondiera con
C or
D al
C or
D
del otro jugador (Cooperate y Defect, el lenguaje oficial del torneo
era el inglés). Los programas no tenían que ser
deterministicos, podían usar un generador de números
aleatorios.
El programa ganador fue el de Anatol Rapaport, psicólogo y
filósofo de la University of Toronto, un experto en el dilema
del prosonero. Era el programa más corto entre los enviados, y
se llamaba
TiT FOR TAT. Usaba una estrategia muy sencilla:
En la primera jugada, coopera; luego, haz lo que el otro ha hecho
en la jugada anterior
Una de las características importantes de TIT FOR TAT es que
nunca es el primero en engañr. Axelrod llama
corteses
(
nice) las estrategias que tienen esta
característica. Ser cortés no quiere decir no
engañar nunca: si el otro engaña, TIT FOR TAT
engañará en la jugada siguiente. Pero una estrategia
cortés nunca será la primera en engañr; por
tanto, si dos estructuras corteses se encuentran, las dos
cooperarán siempre, ganando muchos puntos.
Otro aspecto relevante de TIT FOR TAT es la retaliación
limitada frente a un engaño: si el adversario engañ, TIT
FOR TAT rsponde engañando, pero no extiende el "castigo"
más allá que esto; si el adversario vuelve a cooperat,
TIT FOR TAT cooperará olvidando el engaño.
En un análisis posterior al torneo, Axelrod descubrió
que una estrategia llamada TIT FOR TWO TATS, que engaña
sólo si el otro engaña dos veces, habría ganado.
Las lecciones que se pueden derivar del torneo son dos: es importante
ser corteses (no ser el primero en engañar) y perdonar (no
seguir castigando).
Axelrod organizó más torneos, u derivó otra
lección: el éxito de una estrategia depende del
ambiente, es decir, de las otras estrategias con que se encuentra a
jugar. Por ejemplo, TIT FOR TWO TATS, que habría ganado el
primer torneo, acabó bastante mal en los otros torneos
(más o menos a la mitad del
ranking).
Axelrod llama
robustas las estrategias que tienen éxito
en muchos ambientes diferentes. TIT FOR TAT es una estrategia robusta:
de los seis torneos organizdos en la segunda ronda, TIT FOR TAT
ganó cinco, y se clasificó segunda en el sexto.
Una última observació es que si nos enfrentamos a una
estrategia
no responsiva (su secuencia de jugadas es
establecida
a priori o es aleatoria, y no depende de lo que
hace el otro jugador), entonces "Siempre D" es la mejor estrategia. El
programa que ganó a TIT FOR TAT en el último torneo era
una modificación que intentaba descubrir si la otra estrategia
era no responsiva y, en este caso, pasaba a "Siempre D".
Termino con un recuerdo personal. Hace años, en un curso de
inteligencia artificial que estaba dando en la University of Cape
Coast, decidí repetir el experimento de Axelrod. Pedí a
mis estudiantes que desarrollaran una estrategia para el juego y que
me entregaran un programa (en Python, esta vez... los tiempos han
cambiado). Mi idea era ver como trabajaban duro para crear estrategias
complicadas; luego habrí llegado yo jugando con TIT FOR TAT y,
con el programa más sencillo de todos, les habría
ganado. Quería transformar el torneo en un llamamiento a la
sencillez de los programas (que todavía considero una de sus
calidades más importantes).
Las cosas no funcionaron muy bien: en mi torneo TIT FOR TAT no se
comportó muy bien, acabó sexto de 13
programas. Evidentemente, a pesar de ser robusto, se encontró
en un ambiente donde no funcionaba bien. (Afortunadamente el programa
que ganó era casi tan sencillo como TIT FOR TAT, por tanto mi
argumento didáctico se pudo hacer.)
El dilema del prisonero y el dilema del prisonero continuado nos ponen
el problema del
egoismo racional. Una pulsión natural,
que todos tenemos, es buscar la mayor ganancia personal. Pero en
algunas situaciones la ventaja
colectiva (en este caso la
colectividad son las dos personas) es mayor si los dos deciden de
cooperar. El problema es que si cada uno piensa lógicamente en
su ventaja sin considerar la ventaja del otro, los dos acaban con una
solución en que los dos pierden. El problema no es
baladí. recordemos la famosa frase de Adam Smith:
It is not from the benevolence of the butcher, the brewer, or the
baker that we expect our dinner, but from their regard for their own
interest.
Esta es una de las bases del capitalismo: si cada persona es
racionalmente egoista, y piensa en su propio interés de manera
racional, el resultado será óptimo para la
colectividad. El dilema del prisonero pone en entredicho este
dogma. Hay situaciones en que el egoismo puede no ser la mejor
estrategia, y en que buscar una ventaja para los demás se
traduce en la mejor estrategia para nosotros.