Una de las cosas más extrañas y preocupantes de los principales sistemas de inteligencia artificial actuales es que nadie (ni siquiera quienes los construyen) sabe realmente cómo funcionan.
Esto se debe a que los ingenieros humanos no programan línea por línea los grandes modelos de lenguaje, el tipo de sistemas de inteligencia artificial que impulsan ChatGPT y otros chatbots populares, como lo hacen los programas informáticos convencionales.
En cambio, estos sistemas esencialmente aprenden por sí solos, ingiriendo cantidades masivas de datos e identificando patrones y relaciones en el lenguaje, y luego usan ese conocimiento para predecir las siguientes palabras en una secuencia.
Una consecuencia de construir sistemas de IA de esta manera es que es difícil aplicarles ingeniería inversa o solucionar problemas identificando errores específicos en el código. En este momento, si un usuario escribe «¿Qué ciudad de EE. UU. tiene la mejor comida?» y un chatbot responde con «Tokio», no hay una manera real de entender por qué el modelo cometió este error, o por qué la siguiente persona que haga la pregunta podría recibir una respuesta diferente.
Y cuando los grandes modelos lingüísticos se comportan mal o se descarrilan, nadie puede explicar realmente por qué. (Encontré este problema el año pasado, cuando un chatbot de Bing actuó de manera desequilibrada durante una interacción conmigo, e incluso los altos ejecutivos de Microsoft no pudieron decirme con certeza qué estaba mal. No iba).
La naturaleza inescrutable de los grandes modelos lingüísticos no es sólo una molestia, sino una de las principales razones por las que algunos investigadores temen que los potentes sistemas de inteligencia artificial puedan convertirse en última instancia en una amenaza para la humanidad.
Después de todo, si no podemos entender lo que sucede dentro de estos modelos, ¿cómo sabremos si pueden usarse para crear nuevas armas biológicas, difundir propaganda política o escribir códigos informáticos maliciosos para ataques cibernéticos? Si poderosos sistemas de inteligencia artificial comienzan a desobedecernos o engañarnos, ¿cómo podemos detenerlos si no podemos comprender la causa fundamental de este comportamiento?
Para abordar estas cuestiones, un pequeño subcampo de la investigación de la IA conocido como “interpretabilidad mecanicista” ha pasado años intentando adentrarse en las entrañas de los modelos lingüísticos de la IA. El trabajo ha sido lento y el progreso ha sido gradual.
También existe una creciente resistencia a la idea de que los sistemas de IA plantean muchos riesgos. La semana pasada, dos investigadores de seguridad senior de OpenAI, el fabricante de ChatGPT, abandonaron la empresa en medio de un conflicto con los ejecutivos sobre si la empresa estaba haciendo lo suficiente para que sus productos fueran seguros.
Pero esta semana, un equipo de investigadores de la empresa de inteligencia artificial Anthropic anunció lo que llama un gran avance, uno que espera que nos brinde una mejor comprensión de cómo funcionan realmente los modelos de lenguaje humano y posiblemente evite que se vuelvan peligrosos.
El equipo resumió sus hallazgos esta semana en una publicación de blog titulada «Mapeo de la mente de un modelo de lenguaje grande».
Los investigadores observaron uno de los modelos de IA de Anthropic, Claude 3 Sonnet, una versión del modelo de lenguaje Claude 3 de la compañía, y utilizaron una técnica conocida como «aprendizaje de diccionario» para descubrir modelos en los que se combinan combinaciones de neuronas y unidades matemáticas dentro de la IA. modelo. , se activaron cuando invitaron a Claude a hablar sobre ciertos temas. Identificaron alrededor de 10 millones de estos patrones, a los que llaman «características».
Descubrieron que una característica, por ejemplo, estaba activa cada vez que se le pedía a Claude que hablara sobre San Francisco. Otras funciones estaban activas siempre que se mencionaban temas como la inmunología o términos científicos específicos, como el elemento químico litio. Y algunas características estaban vinculadas a conceptos más abstractos, como el engaño o el sesgo de género.
También descubrieron que habilitar o deshabilitar manualmente ciertas funciones podría cambiar el comportamiento del sistema de inteligencia artificial o incluso hacer que el sistema infrinja sus propias reglas.
Por ejemplo, descubrieron que si forzaban una característica relacionada con el concepto de adulación a activarse con más fuerza, Claude respondía con elogios floridos y exagerados hacia el usuario, incluso en situaciones en las que los halagos eran inapropiados.
Chris Olah, quien dirigió el equipo de investigación de interpretabilidad antrópica, dijo en una entrevista que estos resultados podrían permitir a las empresas de inteligencia artificial controlar sus modelos de manera más efectiva.
«Estamos descubriendo características que podrían arrojar luz sobre las preocupaciones sobre el sesgo, los riesgos de seguridad y la autonomía», afirmó. «Estoy realmente entusiasmado de que podamos convertir estos temas controvertidos sobre los que la gente discute en temas sobre los que realmente podamos tener un discurso más productivo».
Otros investigadores han descubierto fenómenos similares en modelos lingüísticos de tamaño pequeño y mediano. Pero el equipo de Anthropic está entre los primeros en aplicar estas técnicas a un modelo de tamaño natural.
Jacob Andreas, profesor asociado de informática en el MIT, que revisó un resumen de la investigación de Anthropic, lo calificó como una señal prometedora de que la interpretabilidad a gran escala podría ser posible.
«De la misma manera que comprender los fundamentos de cómo trabaja la gente nos ha ayudado a curar enfermedades, comprender cómo funcionan estos patrones nos permitirá reconocer cuándo las cosas están a punto de salir mal y construir mejores herramientas para controlarlas», afirmó.
Olah, jefe de investigación antrópica, advirtió que si bien los nuevos hallazgos representan un progreso importante, la interpretabilidad de la IA aún está lejos de ser un problema resuelto.
Para empezar, dijo, los modelos de IA más grandes probablemente contengan miles de millones de características que representan conceptos distintos, mucho más que los aproximadamente 10 millones de características que el equipo de Anthropic afirma haber descubierto. Encontrarlos a todos requeriría enormes cantidades de potencia informática y sería demasiado costoso para todas, excepto para las empresas de IA más ricas.
Incluso si los investigadores pudieran identificar cada característica de un modelo de IA grande, aún necesitarían más información para comprender todo el funcionamiento interno del modelo. Tampoco hay garantía de que las empresas de IA actúen para hacer que sus sistemas sean más seguros.
Aún así, dijo Olah, simplemente abrir un poco estas cajas negras de IA podría permitir que las empresas, los reguladores y el público en general se sientan más seguros de que estos sistemas pueden controlarse.
“Quedan muchos otros desafíos por delante, pero lo que parecía más aterrador ya no parece ser un obstáculo”, afirmó.


