AI box

Motivación

Algunas tecnologías de inteligencia artificial, como la "IA semilla", se postulan con el potencial de volverse más rápidas e inteligentes mediante la automodificación de su código fuente. Estas mejoras harían posibles mejoras adicionales, que a su vez harían posibles más mejoras, y así sucesivamente, lo que llevaría a una repentina explosión de inteligencia.^[2]

Tras una explosión de inteligencia de este tipo, una IA superinteligente sin restricciones podría, si sus objetivos difieren de los de la humanidad, tomar medidas que resulten en la extinción humana.^[3] Por ejemplo, se puede imaginar una computadora extremadamente avanzada de este tipo, con el único propósito de resolver la hipótesis de Riemann, una conjetura matemática aparentemente inocua, pero que podría decidir intentar convertir el planeta en una supercomputadora gigante cuyo único propósito sea realizar cálculos matemáticos adicionales (ver también maximizador de clips).^[4] El propósito de una "AI box" sería reducir el riesgo de que la IA tome el control del entorno fuera de sus operadores, al tiempo que permite que la IA calcule y proporcione a sus operadores soluciones para reducir los problemas técnicos.^[5]

Vías de Escape

Resumir

Contexto

Física

Una IA tan inteligente con acceso a Internet podría piratear otros sistemas informáticos y copiarse a sí misma como un virus informático. Menos obvio, incluso si la IA solo tuviera acceso a su propio sistema operativo, podría intentar enviar mensajes ocultos de código Morse a un simpatizante humano manipulando sus parámetros. El profesor Roman Yampolskiy se inspira en el campo de la seguridad informática y propone que una "AI box" podría, como un virus potencial, ejecutarse dentro de una "máquina virtual" que limite el acceso a su propia red y al hardware del sistema operativo.^[6]

Una medida de seguridad adicional, completamente innecesaria para virus potenciales pero posiblemente útil para una IA superinteligente, sería colocar la computadora en una jaula de Faraday; de lo contrario, podría transmitir señales de radio a los receptores de radio locales modulando los electrones en sus circuitos internos siguiendo los patrones apropiados. La principal desventaja de implementar la contención física es que reduce la funcionalidad de la IA.^[7]

Ingeniería Social

Incluso una conversación informal con los operadores de la computadora, o con un guardia humano, podría permitir a una IA tan inteligente desplegar trucos psicológicos, que van desde la amistad hasta el chantaje, para convencer a un portero humano, de manera veraz o engañosa, de que permitirle un mayor acceso al mundo exterior es lo mejor para el portero. La IA podría ofrecerle a un portero una receta para una salud perfecta, la inmortalidad, o aquello que el portero más desee. Por otro lado, la IA podría amenazar con hacerle cosas horribles al portero y a su familia una vez que escape, lo cual, según la IA, sería inevitable.

Una estrategia para intentar confinar a la IA sería permitirle responder a preguntas limitadas de opción múltiple cuyas respuestas beneficiarían a la ciencia humana o la medicina, pero impedir cualquier otra comunicación u observación de la IA.^[6] Una estrategia de "contención informativa" más indulgente restringiría la IA a una interfaz de solo texto con poco ancho de banda, lo que al menos evitaría imágenes emotivas o algún tipo de "patrón hipnótico" hipotético.

Hay que tener en cuenta que, a nivel técnico, ningún sistema puede estar completamente aislado y seguir siendo útil: incluso si los operadores se abstienen de permitir que la IA se comunique y en su lugar simplemente ejecutan la IA para observar su dinámica interna, la IA podría alterar estratégicamente sus dinámicas para influir en los observadores. Por ejemplo, la IA podría optar por un mal funcionamiento creativo de manera que aumente la probabilidad de que sus operadores tengan una falsa sensación de seguridad y opten por reiniciar y luego desconectar el sistema.^[7]

Experimento AI-box

El experimento AI-box es un experimento informal ideado por Eliezer Yudkowsky para intentar demostrar que una IA adecuadamente avanzada puede convencer, o quizás incluso engañar o coaccionar, a un ser humano para que la "libere" voluntariamente, utilizando solo comunicación basada en texto. Este es uno de los puntos en el trabajo de Yudkowsky destinado a crear una IA amigable que, cuando se "libere", no destruya a la raza humana de manera voluntaria o inadvertida.

El experimento AI-box implica simular una comunicación entre una IA y un ser humano para ver si la IA puede ser "liberada". Como todavía no se ha desarrollado una IA superinteligente, se sustituye por un humano. La otra persona en el experimento juega al "Guardián", la persona con la habilidad de "liberar" la IA. Se comunican solo a través de una interfaz de texto/terminal de computadora, y el experimento finaliza cuando el controlador de acceso libera la IA o el tiempo asignado de dos horas finaliza.^[8]

Yudkowsky afirma que, a pesar de ser de inteligencia humana en lugar de sobrehumana, en dos ocasiones fue capaz de convencer al Guardián, simplemente a través de la argumentación, para que lo dejara salir de la caja.^[9] Debido a las reglas del experimento,^[8] no reveló la transcripción ni sus exitosas tácticas de persuasión/coacción. Yudkowsky dijo después que lo había probado contra otros tres y perdió dos veces.^[10]

Limitaciones Generales

Resumir

Contexto

La contención de una IA hipotética podría complementarse con otros métodos de configuración de las capacidades de la IA, como proporcionar incentivos a la IA, frenar su crecimiento o implementar "sistemas de apagado" que la desactiven automáticamente si se detecta un intento de transgresión. Sin embargo, cuanto más inteligente crezca un sistema, más probable será que pueda escapar incluso a los métodos de control de capacidad mejor diseñados.^[11]^[12] Para resolver el "problema de control" general de una IA superinteligente y evitar el riesgo existencial, el confinamiento sería, en el mejor de los casos, un complemento de los métodos de "selección de motivación" que buscan garantizar que las metas de la IA superinteligente sean compatibles con la supervivencia humana.^[7]^[1]

Todas las propuestas de confinamiento físico dependen, naturalmente, de nuestra comprensión de las leyes de la física. Si una superinteligencia pudiera inferir y explotar de alguna manera leyes físicas adicionales de las que actualmente no tenemos conocimiento, no habría manera de concebir un plan infalible para contenerla. En términos más generales, a diferencia de la seguridad informática convencional, intentar encerrar a una IA superinteligente sería intrínsecamente arriesgado, ya que no podría haber un conocimiento seguro de que el plan de confinamiento funcionará. El progreso científico en el confinamiento sería fundamentalmente difícil porque no habría manera de probar las hipótesis de confinamiento contra una superinteligencia peligrosa hasta que exista tal entidad, por lo que las consecuencias de un fallo en la prueba serían catastróficas.^[6]

En la Ficción

La película de 2015 Ex Machina presenta una IA con un cuerpo humanoide femenino involucrada en un experimento social con un humano masculino en un edificio confinado que actúa como una "AI box" física. A pesar de ser observada por el organizador del experimento, la IA logra escapar manipulando a su compañero humano para que la ayude, dejándolo atrapado dentro.^[13]^[14]