Los acertijos de Daniel Litt en X: la infinita dificulta de la probabilidad
Hace unos meses el matemático Daniel Litt quien se dedica a la geometría algebraica y la teoría de los números propuso una serie de problemas en su cuenta de X sobre probabilidad que en un principio nos podrían parecer increíblemente sencillos inclusive ingenuos, los problemas están relacionados con el lanzamiento de monedas o la elección de pelotas en una tómbola. Una gran cantidad de matemáticos y aficionados a las matemáticas se han involucrado en estos problemas y se podría decir que son la sensación en las últimas semanas.
Lo interesante de esta serie de problemas es que no solo la mayoría de los usuarios dieron una respuesta incorrecta sino inclusive matemáticos profesionales dedicados a la probabilidad encontraron algunas dificultades resolviendo estos acertijos. En lo particular me pareció un fenómeno muy interesante pues refuerza una idea que siempre he tenido y que además me gusta transmitirles a nuestros estudiantes: la intuición probabilista es una de las más complicadas en matemáticas.
En esta edición de nuestro blog me gustaría compartir con nuestra comunidad dos de los problemas que propuso Daniel Litt, uno de ellos aunque poco intuitivo es razonablemente sencillo de explicar mientras que el otro no conozco una demostración formal del caso general aún. Le recomiendo a nuestros lectores que antes de leer algunas de las ideas detrás de la solución se tomen unos minutos para reflexionar ustedes mismos la respuesta. Los argumentos de este texto no son originales y han sido leídos en distintas respuestas tanto en redes sociales como en artículos y blogs sobre el tema.
Pelotas bicolores en una tómbola
Comenzaremos con el siguiente enunciado de uno de los problemas que planteó Daniel Litt, pueden encontrar la publicación original en esta liga. Por favor tomen algunos minutos para pensar en su respuesta antes de continuar leyendo.
Supongamos que una tómbola contiene 100 pelotas, algunas son azules y otras son rojas. El número de pelotas rojas fue elegido previamente al azar de acuerdo a una distribución uniforme sobre los números entre el cero y el cien. Supongamos que sacamos una pelota al azar (uniforme) de la tómbola y observamos que es roja. Al sacar una segunda pelota de la tómbola ¿es más probable que sea roja o que sea azul?
La respuesta correcta es roja por la siguiente razón la cual fue propuesta en este tweet:
- En lugar de suponer que tenemos 100 pelotas coloreadas de rojo y azul vamos a suponer que tenemos en un inicio 101 pelotas sin colorear todas numeradas entre el 1 y el 101.
- Elegiremos una pelota al azar dentro de estas 101 pelotas de manera uniforme, digamos 0 ≤ N ≤ 101. Vamos a deshacernos de esa pelota para quedarnos con 100. Las que estén numeradas con un n < N serán pintadas de rojo y las otras serán pintadas de azul.
- El experimento anterior es equivalente a la hipótesis del acertijo de Daniel Litt en la que se elige el número de pelotas rojas y azules de manera uniforme.
- Ahora tomamos cualquier pelota dentro de la tómbola y tal y como lo suponemos en el acertijo, digamos que es de color rojo y su índice es el R. Nos quedan 99 pelotas en la tómbola y podemos suponer que R < N.
- Después de eso vamos sacar una tercer pelota de la tómbola y nos preguntamos si es más probable que sea roja o azul. Digamos que su número ahora es X.
- Notemos que existen tres posibilidades: Si X < R entonces la tercera pelota que elegimos será roja. Si R < X < N también la pelota será roja. Si por el contrario X > N entonces la pelota será azul.
- Debido a que la pelota R fue elegida de manera uniforme, los tres casos so igual de probables por lo tanto la probabilidad de que la pelota X sea roja es igual a 2/3.
Como se puede comprobar en el post original, solo el 22% de las personas contestaron correctamente. Esta pregunta demuestra lo poco intuitiva que resulta algunas veces la distribución uniforme, pensemos en particular en el paso 7 de este argumento. Quienes no estén convencidos los invito a que revisen las siguientes simulaciones de este ejercicio utilizando Python.
Este argumento está muy relacionado con la manera como funcionan algunos argumentos de machine learning, pensemos por ejemplo en un problema de clasificación binaria en el que nuestro primer registro está etiquetado con la clase -1, si tenemos que elegir una clase para un segundo registro lo más natural sería proponer nuevamente el -1.
Lanzamiento de monedas
El siguiente acertijo es en palabras de Daniel Litt su favorito, en este caso solo un porcentaje cercano al diez dio la respuesta correcta, efectivamente esta pregunta es mucho más complicada. En la siguiente entrevista cuenta un poco más de detalles sobre lo mucho que le sorprendió la recepción de esta pregunta.
En México normalmente decimos águila o sol en lugar de cara o cruz debido a los dibujos que se encuentran en algunas de las monedas de pesos mexicanos, seguiremos esa convención.
Supongamos que Alice y Bob lanzarán una moneda al aire de manera independiente e idénticamente distribuida siguiendo una distribución uniforme sobre Águila (A) o Sol (S). Alice ganará un peso mexicano cada que hayan dos lanzamientos seguidos de la forma AA y Bob también ganará un peso cada que hayan dos lanzamientos seguidos de la forma AS. Dado un número N de lanzamientos ¿quién tiene más probabilidad de ganar?
- Consideremos el siguiente razonamiento incorrecto que predice que Alice tiene más probabilidad: Alice parece tener una ventaja porque sus ganancias pueden ser gigantescas, pensemos en el caso en el que aparecen puras águilas AAAAAA... en este caso Alice gana siempre. Por el contrario las ganancias de Bob podrían ser a lo más la mitad de los lanzamientos pues él no gana por SA.
- Otro razonamiento incorrecto que predice que tienen la misma probabilidad: si tomamos un número cualquiera N de lanzamientos, el valor esperado de las ganancias de Alice es el mismo que el valor esperado que las ganancias de Bob.
El último razonamiento no es suficiente pues estamos buscando la probabilidad de ganar para cada uno de ellos o en todo caso la diferencia, no los valores esperados. Una fantástica explicación de cómo otros dos momentos como la varianza y el sesgo de las distribuciones son indispensables para este problema la pueden encontrar aquí.
Para convencerse basta realizar algunas simulaciones, por ejemplo les recomiendo las que se publicaron aquí. También les recomiendo leer el siguiente artículo en el que se implementa un algoritmo para dado cualquier número N, comprobar que Bob tiene más probabilidad de ganar que Alice.
Es interesante mencionar que lo anterior no es una demostración matemática entera pues es necesario hacer el cálculo para cada N. Existen dos demostraciones formales que yo conozco de que Bob tiene más probabilidad de ganar, una de ellas fue publicada en el siguiente artículo de Simon Segert y la otra incluye una hipótesis que no ha sido verificada sobre el proceso, la pueden encontrar en el siguiente texto. En el artículo de Segert se menciona que a pesar de que la pregunta de Daniel Litt fue demostrada matemáticamente, aún no existe una demostración que garantice que Bob siempre ganará, solo que es más probable que lo haga.
¿Dónde aprender probabilidad?
En el Colegio de Matemáticas Bourbaki enseñamos con detalle la teoría de la probabilidad y sus aplicaciones. Compartimos con ustedes algunos de nuestros temarios.
- Track de Ciencia de Datos. (49 semanas).
- Machine Learning & AI for the Working Analyst ( 12 semanas).
- Matemáticas para Ciencia de Datos ( 24 semanas).
- Especialización en Deep Learning. (12 semanas).
- Track de Finanzas Cuantitativas (49 semanas)
- Aplicaciones Financieras De Machine Learning E IA ( 12 semanas).
- Las matemáticas de los mercados financieros (24 semanas).
- Deep Learning for Finance (12 semanas).