¿De quién es la culpa cuando la Inteligencia Artificial comete errores?
Traducido por Carlos Secada del original por Cassie Kozyrkov
No me malinterpreten, me encanta el machine learning (ML) y la inteligencia artificial (IA). Pero no confío en ellos ciegamente y tú tampoco deberías hacerlo, porque la forma en que construyes soluciones efectivas y confiables de ML/IA es forzando cada solución a ganar tu confianza.
La confianza ciega es algo terrible.
Antes de comenzar a pensar que esto tiene algo que ver con robots o ciencia ficción, ¡detente! Los sistemas de ML / IA no son humanos, son sólo útiles etiquetadores de cosas con nombres poéticos. Pero en cambio, su poca confiabilidad proviene por completo de otro lugar. Creo que mejor es mostrarlo y no contarlo, así que veamos un familiar ejemplo…
[Alerta de spoiler: este artículo arruinará la diversión del aprendizaje no supervisado desmitificado, al hacerte inmune a mi pequeña demostración cognitiva.]
Preparando la escena para las ilusiones
Démosle la bienvenida de nuevo a nuestros gatos, a quienes quizás ya conociste cuando creamos un clasificador para dividir mi conjunto de datos original de seis fotos en dos grupos.
¿Mirarías eso? Mi asombroso sistema mágico de machine learning logró responder con los resultados exactos que esperaba!
¡Bingo! Estos eran dos gatos individuales y el modelo asigna perfectamente sus etiquetas, haciéndome casi llorar de orgullo paternal por mi inteligente robot clasificador. ¡Esto significa que acabo de construir un clasificador de Tesla y Huxley! …¿Correcto?
!Nuestras mentes nos engañan¡
¡No tan rápido! Esa es nuestra ilusión humana que nos vuelve a engañar. Me quedé tan atrapado emocionalmente con mis gatitos que podría no haber notado que todas las fotos de Tesla tienen una rejilla en el fondo y todas las fotos de Huxley no. ¿Lo notaste? Mira de nuevo.
¿Detector de gatos o detector de rejillas?
Mi solución, sin que yo lo supiera, es en realidad un detector de rejillas, no un detector Hux / Tes. Probar con nuevos ejemplos tiene fama de ser útil, así que veamos si detectamos el problema de esa manera …
Incluso si lo probara con nuevos datos mostrándoles estas nuevas fotos, no habría ni una pizca de indicios. Ufff. ¿Es eso un problema?
No lo es, si Tes siempre se fotografía con una rejilla y Hux no lo hace siempre. Si ese es el caso, ¿a quién le importa cómo funciona? Siempre funciona. Le dará el gato correcto cada vez. No hay problema.
Eso fue un gran si. ¿Qué pasa si los gatos se mudan a otro departamento (historia real)? ¿Qué pasa si heredas mi clasificador sin mis notas, y lo usas en tus fotos?
En esos casos, la etiqueta de resultado será “Huxley”, y cualquier sistema crítico que dependa de mi Detector Hux/Tes explotará y arderá horriblemente.
¿De quién es la culpa?
Mientras intentamos controlar las llamas, hagamos una autopsia rápida:
- Como es común con la IA, la receta de convertir píxeles en etiquetas es demasiado complicada como para entenderla.
- Todo lo que observo son las entradas (píxeles) y las salidas (etiqueta Hux / Tes).
- Como soy humano, no noto cosas que están justo delante de mi nariz (la rejilla y Tes siempre coinciden).
- La historia que me cuento acerca de cómo las entradas se relacionan con las salidas no solo está sobre-simplificada, sino que también está alejada y sesgada de la explicación de la rejilla, por una ilusión.
- Esta bien. No tengo que entender cómo funciona mientras pueda estar seguro de que funciona.
- La forma de verificar si funciona es evaluar cómo funciona con una batería de ejemplos relevantes que no ha visto antes.
Hasta aquí todo bien. En realidad todavía no hay problema. Tu confías en muchas cosas sin saber cómo funcionan, por ejemplo, el paracetamol, que muchos de nosotros tomamos para nuestros dolores de cabeza. Hace su trabajo, pero la ciencia no puede decirte cómo. La parte importante es que se puede verificar que el paracetamol si funciona.
Piensa en los complejos sistemas de IA de la misma manera que piensas en las curas para el dolor de cabeza. Asegúrate de que funcionen y estarás bien. Ok, ¿dónde está la revelación del misterio? ¡Redoble de tambores por favor!
- Desafortunadamente, verifiqué el rendimiento en ejemplos que no son como los ejemplos en los que quiero que opere mi sistema.
Ahí lo tienes. Esto último es donde realmente todo salió terriblemente mal. El resto está bien, siempre que probemos el sistema adecuadamente con ejemplos apropiados. Entonces, la respuesta es: es mi humana culpa.
Si pruebas el sistema para un trabajo y luego lo aplicas a otro … ¿qué esperabas?
Si enseño y evalúo a un estudiante usando un conjunto de ejemplos que no cubren la tarea que quiero que aprenda, entonces ¿por qué me sorprendería si ocurre un desastre más tarde? Si todos mis ejemplos son del mundo donde Tes y la rejilla siempre están juntos, entonces solo puedo esperar que mi clasificador funcione en ese mundo. Cuando lo muevo a un mundo diferente, lo pongo donde no pertenece. Es mejor que la aplicación sea de bajo riesgo porque no hay excusa para “Ay, pero no sabía que no funcionaría fuera del entorno para el que fue creada” . Y si no lo sabías antes, ahora lo sabes.
Es por eso que es tan importante tener tus objetivos y usuarios en mente desde el principio. Detalla las especificaciones y la configuración antes de comenzar. Pon a cargo a un adulto responsable o confórmate con aplicaciones de juguete.
Cuando hay cosas importantes en juego, no sólo arrojes geniales palabras de moda a conjuntos de datos irrelevantes.
Sin un liderazgo experto y responsable, bueno…., espero que la salud, seguridad, dignidad o el futuro de nadie dependa de tu aplicación…
Sentido común, no magia
He estado usando la palabra “ejemplos” en lugar de “datos” (son lo mismo) para recordarte que esto no es magia. El sentido del ML / IA es que estás expresando tus deseos usando ejemplos en lugar de instrucciones. Para que funcione, los ejemplos tienen que ser relevantes. Cuanto más complicada sea la tarea, más ejemplos necesitarás. Te comunicas usando ejemplos todos los días, así que esto ya lo sabías. Tal vez te estarias preguntando si las matemáticas dicen algo diferente; no, no lo hacen. Ten la seguridad de que el sentido común ha sido tu mejor algoritmo todo este tiempo.
Si quieres enseñar con ejemplos, los ejemplos tienen que ser buenos. Si quieres confiar en tu estudiante, el examen debe ser bueno.
La confianza ciega es algo terrible.
No sabes nada acerca de la confiabilidad de tu sistema fuera de las condiciones en que lo probaste, así que ten a mano estas advertencias para tu sistema:
- Si no lo probaste, no confíes en él.
- Si no lo probaste en [entorno], no confíes en él en [entorno].
- Si no lo probaste con [población de usuarios], no confíes en él con [población de usuarios].
- Si no lo probaste con [población de datos], no confíes en él con [población de datos].
- Si una entrada (input) es inusual, no confíes en tu sistema para generar algo sensible. Considera el uso de redes de seguridad y detección de valores atípicos (por ejemplo, marcar una instancia inusual para revisión humana)
Si usas una herramienta donde no se ha verificado que sea seguro usarla, cualquier desastre que ocurra será tu culpa. La IA es una herramienta como cualquier otra.