La mejor estrategia para ganar al póquer
Desarrollan un programa informático imbatible al póquer Texas Hold ‘Em a dos jugadores.
El primer juego de mesa en ser resuelto completamente (además de las tres en raya, claro) fue el de las damas. Y desde hace tiempo hay programas de ordenador que ganan a maestros del ajedrez, pero, hasta ahora, no había uno que fuera imbatible jugando al póquer.
Esa situación acaba de cambiar con un sistema informático creado por expertos de la Universidad de Alberta en Canadá. Desde que se inventó el juego, los jugadores de póquer siempre han estado comentando ciertas estrategias que permitían ganar, algo que siempre resultó difícil de demostrar, sobre todo a largo plazo.
Obviamente, debido a la información oculta y a la suerte que se haya tenido en las cartas recibidas, el programa no gana siempre, pero en promedio el programa es tan bueno que un humano no tendría la menor oportunidad de estar en cabeza, incluso jugando 60 millones de manos. Según algunos expertos del campo, la nueva estrategia no es perfecta, pero ya no tiene sentido buscar estrategias mejores. En el póquer no se puede tener una solución perfecta, pero sí una tan cercana que nadie sea capaz de apreciar la diferencia.
Lo interesante del póquer es que cada uno de los jugadores conoce sus cartas, pero no todas las de los demás. A diferencia del ajedrez, en el que todo el mundo conoce la posición de las piezas, en el póquer cada jugador tiene que inferir las cartas que tiene el contrincante basándose en cómo juega (apuesta) este. Es decir, tiene que jugar con una información imperfecta. Por esta razón el póquer es un caso interesante para ser estudiado en el campo de la inteligencia artificial.
Encima, además de la falta de información, en el póquer entra la suerte, las apuestas realizadas o los faroles, que hacen que sea un juego muy complicado y para el que es imposible encontrar una estrategia que garantice que se pueda ganar todas las manos. Por esta razón el supuesto programa imbatible al póquer no juega al póquer normal, sino a una variante simplificada denominada Texas Hold ‘Em, tipo de póquer que también se juega de verdad y sobre el que incluso se celebran campeonatos. En el Texas Hold ‘Em estándar se reparten dos naipes boca abajo a cada jugador (las cartas ocultas) mientras que hay cinco cartas descubiertas que forman parte de la “comunidad” de jugadores. Entonces, cuando sólo quedan dos jugadores se pueden adoptar o bien las reglas “heads up” o las reglas “head-to-head”.
Es la primera vez que se “resuelve” un juego complejo en el que la información acerca del estado del juego está oculta por los jugadores. El logro podría tener aplicaciones en el mundo real además de los juegos de naipes en casos en los que la información disponible es incompleta. Así por ejemplo, se podría usar en subastas, en seguridad aérea, en cartera de inversiones, en decisiones médicas o en el diseño de patrullas de guardacostas.
Aunque anteriormente se crearon programas que jugaban al póquer, ningún programa ha sido lo suficientemente poderoso como para que, en todos los posibles escenarios, elija la mejor estrategia en cada caso.
Michael Bowling y sus colaboradores tomaron una versión anterior del programa llamada Polaris e introdujeron unos cambios para que pudiera aprender de la experiencia. Con ellos lograron que el programa estuviera más dispuesto a jugar en situaciones en las que había fallado en el pasado, pero en las que se podría ganar optando por una estrategia más sofisticada.
El programa juega contra sí mismo miles de veces en una serie de entrenamientos y examina sus movimientos para ver si la una elección diferente hubiera mejorado el resultado. Entonces calcula al grado de arrepentimiento. La idea es minimizar ese arrepentimiento. Según practica, va mejorando su estrategia y aprendiendo hasta que el grado de arrepentimiento casi desaparece. En un juego perfecto, con toda información, se podría llegar a un arrepentimiento exactamente cero, pero en este caso es tan cercano a cero que el programa no podría ser batido en el lapso de una vida humana.
Además, los investigadores ajustaron la optimización del uso del espacio en disco y la memoria, pues, al fin y al cabo, corre en un computador “convencional”. En lugar de usar los 262 terabytes de datos que serían necesarios en un principio, se las ingeniaron para comprimir toda la información en “sólo” 12 Terabytes.
La nueva versión, a la que llamaron Cepheus, es además es 1000 veces más rápida gracias al uso de mayor potencia de computo (nuevo hardware).
El computador necesita calcular una tabla de estrategia gigantesca para cada posible situación del juego. En cada mano determinará si debe o no debe apostar. Pero dada una misma mano el programa no siempre realizará la misma acción, sino que una fracción de ellas hará lo contrario, así evita que el oponente sepa predecir la situación. Además, algunas veces, el programa es capaz de echarse un farol con una mano de malas cartas. Incluso los faroles son matematizables y pueden ser optimizados. Se puede calcular cuál deber ser la frecuencia de los faroles para obtener los mejores resultados.
Cepheus puede computar estrategias perfectas para cada posible situación en la que hay dos jugadores en el Heads Up Limit Hold ‘Em. En las reglas “heads-up” sólo hay dos jugadores, y “limit” viene a decir que hay un límite de apuesta. En este caso resuelto por el programa se empieza con tres cartas para cada jugador que están boca abajo y otras dos cartas comunes que están boca arriba en el centro de la mesa. Cada jugador tratará de conseguir la mejor combinación de sus tres cartas con las dos comunes. Para esta variante del juego “sólo” hay 3.16 × 1017 estados posibles.
Los investigadores han podido demostrar que no hay una alternativa estratégica mejor fiable a su programa jugando en el plazo de una vida humana. Los que lo deseen pueden jugar contra en programa a través de la web que han creado los investigadores en distintos escenarios.
El programa no desmitifica el juego porque el computo de 12 terabytes de datos no es algo que los humanos podamos hacer en un par de días, ni siquiera en toda la vida. Además, obviamente, el punto débil del programa es que sólo es óptimo para dos jugadores y en el Texas Hold ‘Em tradicional siempre se empieza con más. Pero un mayor número de jugadores es mucho más difícil de analizar.
La idea se puede aplicar a situaciones en las que se tenga una información incompleta. Ya se han desarrollado programas que asignan marshals a los vuelos comerciales de avión de tal modo que los terroristas no lo puedan predecir, lo que da mayor protección a vuelos susceptibles de ser secuestrados. Esta nueva estrategia usada en Texas Hold ‘Em se podría usar para este cometido. También las compañías de telecomunicaciones podrían usar este tipo de programas para pujar en subastas de frecuencias.
Copyleft: atribuir con enlace a http://neofronteras.com/?p=4590
Fuentes y referencias:
Artículo original
Web de Cepheus.
Foto: Universidad de Alberta.
8 Comentarios
RSS feed for comments on this post.
Lo sentimos, esta noticia está ya cerrada a comentarios.
domingo 11 enero, 2015 @ 9:20 pm
Hasta que leí la aclaración pensé que era el póker-póker. No… es lo mismo xD.
El problema de la carrera de armamentos es (como todo) el tiempo de respuesta. La ventaja temporal que uno puede tener frente al adversario, porque este (salvo que se retire), alcanzará eventualmente nuestro nivel y eventualmente lo subirá. Así que estos programas tienen más valor científico que otra cosa, porque en la práctica A y B ponen a jugar sus programas (que serán el mismo) y el resultado en promedio será de draw draw draw.
No siendo que alguien introduzca ahora las variantes fulleras y tahúres. Eso sí sería un avance de cuidado (para todo, comprensión del comportamiento humano incluido).
lunes 12 enero, 2015 @ 2:53 am
Esto me recuerda a Dember, el robot fullero de la serie de animación Futurama, de Matt Groening, y a la película ‘Juegos de Guerra’.
martes 13 enero, 2015 @ 6:40 pm
He intentado jugar unas manos contra el programa en las página de Cepheus que nos facilita Neo, pero no me deja. A ver si funciona dentro de unos días.
Haciendo un poco de «abogado del diablo», creo que el programa tiene un valor bastante limitado a efectos prácticos porque está diseñado sólo para la variante de dos jugadores y con límite de apuestas, pero la mayoría de campeonatos que ponen en la tele se disputan con mesas de unos 8 jugadores que se van eliminando y sin límite en las apuestas.
Es más, sospecho que es precisamente el límite en las apuestas lo que hace más poderoso al programa si juega contra un humano: cuanto más limitada esté la apuesta, más larga es la partida y eso es lo que le va dando ventaja al ordenador.
miércoles 14 enero, 2015 @ 4:41 am
Hay un juego en el que todavía, en general, los humanos vence na los computadores, es el milenario juego del GO.
miércoles 21 enero, 2015 @ 9:30 am
Querido Neo:
Aunque no vaya de cartas, ¡Vaya susto!: unos pocos días sin la página y me he quedado sin uñas. Miré en «Interdamain» pero no supe aclarar nada.
Espero que todo se haya resuelto.
Un fuerte abrazo.
miércoles 21 enero, 2015 @ 10:18 am
Estimado Tomás:
No ha sido más que el producto de un mal servicio de hosting y un largo fin de semana festivo en EEUU (en donde están los servidores).
Pero, en una de estas NeoFronteras no se levanta.
Estoy tratando de solucionar los problemas técnicos.
miércoles 21 enero, 2015 @ 10:37 pm
Querido y admirado Neo:
Pues tu penúltima frase me llena de consternación. Mi limitada cultura informática no me permite sospechar tus problemas, pero, al menos para mi, y sé que para varios más, sería una tragedia perder esta maravillosa página.
Un fuerte, fortísimo, abrazo de agradecimiento por tu dedicación.
sábado 24 enero, 2015 @ 6:14 pm
Me voy a comprar ese programa. Estoy harto de perder al Texas Hold’Em, que encuentro una variante del póquer muy entretenida. Lo malo es que es cierto que siempre se empieza a jugar con más de dos jugadores. Broma aparte,lo que interesa es que esto es un nuevo triunfo para la inteligencia artificial, que además parece ser aplicable al control de situaciones peligrosas.
– Y esperemos que no se de esa caída irreversible a la que alude Neo en su comentario.Sería una verdadera lástima no contar con este valioso sitio.