- NeoFronteras - http://neofronteras.com -

La mejor estrategia para ganar al póquer

Desarrollan un programa informático imbatible al póquer Texas Hold ‘Em a dos jugadores.

Foto

El primer juego de mesa en ser resuelto completamente (además de las tres en raya, claro) fue el de las damas. Y desde hace tiempo hay programas de ordenador que ganan a maestros del ajedrez, pero, hasta ahora, no había uno que fuera imbatible jugando al póquer.
Esa situación acaba de cambiar con un sistema informático creado por expertos de la Universidad de Alberta en Canadá. Desde que se inventó el juego, los jugadores de póquer siempre han estado comentando ciertas estrategias que permitían ganar, algo que siempre resultó difícil de demostrar, sobre todo a largo plazo.
Obviamente, debido a la información oculta y a la suerte que se haya tenido en las cartas recibidas, el programa no gana siempre, pero en promedio el programa es tan bueno que un humano no tendría la menor oportunidad de estar en cabeza, incluso jugando 60 millones de manos. Según algunos expertos del campo, la nueva estrategia no es perfecta, pero ya no tiene sentido buscar estrategias mejores. En el póquer no se puede tener una solución perfecta, pero sí una tan cercana que nadie sea capaz de apreciar la diferencia.
Lo interesante del póquer es que cada uno de los jugadores conoce sus cartas, pero no todas las de los demás. A diferencia del ajedrez, en el que todo el mundo conoce la posición de las piezas, en el póquer cada jugador tiene que inferir las cartas que tiene el contrincante basándose en cómo juega (apuesta) este. Es decir, tiene que jugar con una información imperfecta. Por esta razón el póquer es un caso interesante para ser estudiado en el campo de la inteligencia artificial.
Encima, además de la falta de información, en el póquer entra la suerte, las apuestas realizadas o los faroles, que hacen que sea un juego muy complicado y para el que es imposible encontrar una estrategia que garantice que se pueda ganar todas las manos. Por esta razón el supuesto programa imbatible al póquer no juega al póquer normal, sino a una variante simplificada denominada Texas Hold ‘Em, tipo de póquer que también se juega de verdad y sobre el que incluso se celebran campeonatos. En el Texas Hold ‘Em estándar se reparten dos naipes boca abajo a cada jugador (las cartas ocultas) mientras que hay cinco cartas descubiertas que forman parte de la “comunidad” de jugadores. Entonces, cuando sólo quedan dos jugadores se pueden adoptar o bien las reglas “heads up” o las reglas “head-to-head”.
Es la primera vez que se “resuelve” un juego complejo en el que la información acerca del estado del juego está oculta por los jugadores. El logro podría tener aplicaciones en el mundo real además de los juegos de naipes en casos en los que la información disponible es incompleta. Así por ejemplo, se podría usar en subastas, en seguridad aérea, en cartera de inversiones, en decisiones médicas o en el diseño de patrullas de guardacostas.
Aunque anteriormente se crearon programas que jugaban al póquer, ningún programa ha sido lo suficientemente poderoso como para que, en todos los posibles escenarios, elija la mejor estrategia en cada caso.
Michael Bowling y sus colaboradores tomaron una versión anterior del programa llamada Polaris e introdujeron unos cambios para que pudiera aprender de la experiencia. Con ellos lograron que el programa estuviera más dispuesto a jugar en situaciones en las que había fallado en el pasado, pero en las que se podría ganar optando por una estrategia más sofisticada.
El programa juega contra sí mismo miles de veces en una serie de entrenamientos y examina sus movimientos para ver si la una elección diferente hubiera mejorado el resultado. Entonces calcula al grado de arrepentimiento. La idea es minimizar ese arrepentimiento. Según practica, va mejorando su estrategia y aprendiendo hasta que el grado de arrepentimiento casi desaparece. En un juego perfecto, con toda información, se podría llegar a un arrepentimiento exactamente cero, pero en este caso es tan cercano a cero que el programa no podría ser batido en el lapso de una vida humana.
Además, los investigadores ajustaron la optimización del uso del espacio en disco y la memoria, pues, al fin y al cabo, corre en un computador “convencional”. En lugar de usar los 262 terabytes de datos que serían necesarios en un principio, se las ingeniaron para comprimir toda la información en “sólo” 12 Terabytes.
La nueva versión, a la que llamaron Cepheus, es además es 1000 veces más rápida gracias al uso de mayor potencia de computo (nuevo hardware).
El computador necesita calcular una tabla de estrategia gigantesca para cada posible situación del juego. En cada mano determinará si debe o no debe apostar. Pero dada una misma mano el programa no siempre realizará la misma acción, sino que una fracción de ellas hará lo contrario, así evita que el oponente sepa predecir la situación. Además, algunas veces, el programa es capaz de echarse un farol con una mano de malas cartas. Incluso los faroles son matematizables y pueden ser optimizados. Se puede calcular cuál deber ser la frecuencia de los faroles para obtener los mejores resultados.
Cepheus puede computar estrategias perfectas para cada posible situación en la que hay dos jugadores en el Heads Up Limit Hold ‘Em. En las reglas “heads-up” sólo hay dos jugadores, y “limit” viene a decir que hay un límite de apuesta. En este caso resuelto por el programa se empieza con tres cartas para cada jugador que están boca abajo y otras dos cartas comunes que están boca arriba en el centro de la mesa. Cada jugador tratará de conseguir la mejor combinación de sus tres cartas con las dos comunes. Para esta variante del juego “sólo” hay 3.16 × 1017 estados posibles.
Los investigadores han podido demostrar que no hay una alternativa estratégica mejor fiable a su programa jugando en el plazo de una vida humana. Los que lo deseen pueden jugar contra en programa a través de la web que han creado los investigadores en distintos escenarios.
El programa no desmitifica el juego porque el computo de 12 terabytes de datos no es algo que los humanos podamos hacer en un par de días, ni siquiera en toda la vida. Además, obviamente, el punto débil del programa es que sólo es óptimo para dos jugadores y en el Texas Hold ‘Em tradicional siempre se empieza con más. Pero un mayor número de jugadores es mucho más difícil de analizar.
La idea se puede aplicar a situaciones en las que se tenga una información incompleta. Ya se han desarrollado programas que asignan marshals a los vuelos comerciales de avión de tal modo que los terroristas no lo puedan predecir, lo que da mayor protección a vuelos susceptibles de ser secuestrados. Esta nueva estrategia usada en Texas Hold ‘Em se podría usar para este cometido. También las compañías de telecomunicaciones podrían usar este tipo de programas para pujar en subastas de frecuencias.

Copyleft: atribuir con enlace a http://neofronteras.com/?p=4590 [1]

Fuentes y referencias:
Artículo original [2]
Web de Cepheus. [3]
Foto: Universidad de Alberta.