
Resumen
Un objetivo de larga data de la investigación de IA ha sido la creación de IA que puede aprender indefinidamente. Un camino tentador hacia ese objetivo es una IA que se mejora a sí misma reescribiendo su propio código, incluyendo cualquier código responsable del aprendizaje. Esa idea, conocida como Máquina de Godel, propuesta por Jrgen Schmidhuber hace décadas, es una IA hipotética auto-mejora. Solucione de manera óptima los problemas reescribiendo recursivamente su propio código cuando puede demostrar matemáticamente una mejor estrategia, convirtiéndolo en un concepto clave en meta-aprendizaje o aprendizaje para aprender.
Mientras que la máquina teórica de Godel prometió automodificaciones proversamente beneficiosas, su realización se basó en una suposición poco práctica: que la IA podría demostrar matemáticamente que un cambio propuesto en su propio código produciría una mejora neta antes de adoptarla. Nosotros, en colaboración con el laboratorio de Jeff Clúnes en UBC, proponemos algo más factible: un sistema que aprovecha los principios de algoritmos abiertos como la evolución darwiniana para buscar mejoras que mejoren empíricamente el rendimiento.
Llamamos al resultado la Máquina Darwin Godel (informe técnico completo). Los DGM aprovechan los modelos de fundación para proponer mejoras de código, y utilizan innovaciones recientes en algoritmos abiertos para buscar una biblioteca creciente de diversos agentes de IA de alta calidad. Nuestros experimentos muestran que las DGM se mejoran a sí mismas cuanto más cómputo se proporcionan. En consonancia con la clara tendencia de que los sistemas de IA que se basan en el aprendizaje en última instancia superan a los diseñados a mano, existe un potencial de que los DGM pronto podrían superar los sistemas de IA diseñados a mano.

La máquina Darwin Godel
es un agente de codificación auto-mejorable que reescribe su propio
código para mejorar el rendimiento en las tareas de programación. Crea
varias auto-mejoras, como un paso de validación de parches, mejor
visualización de archivos, herramientas de edición mejoradas, generación
y clasificación de múltiples soluciones para elegir la mejor, y
añadiendo una historia de lo que se ha intentado antes (y por qué falló)
al hacer nuevos cambios.
Para más detalles, lea nuestro Informe Técnico y se ha publicado el código.
Introducción
La mayoría de los sistemas de IA actuales aprenden únicamente durante el entrenamiento. Luego su inteligencia está encerrada y desplegada. Podrían en cambio, como los humanos, o toda la comunidad de científicos humanos, seguir aprendiendo y auto-mejorando para siempre? Por otra parte, tal auto-mejora podría catalizar la futura superación personal?

La máquina Darwin Construye
itertivamente un creciente archivo de agentes aprovechando los
principios de la exploración indefinida. Los nuevos agentes son creados y
puntuados interdemoviendo la automodificación con la evaluación de
tareas aguas abajo.
Nuestra Máquina de Darwin Godel (DGM) ** es un paso en esa dirección. Aunque creemos que todo el potencial de automodificación es mucho más amplio que las capacidades que ofrecen los sistemas agentes existentes, las DGM también se pueden aplicar a tareas prácticas y agentes, que combinan modelos de fundación con herramientas, como la búsqueda en la web, o flujos de trabajo, como la creación de tres respuestas potenciales y la elección de la mejor. Esta primera DGM es un agente de codificación que tiene la capacidad de:
-
Leer y Modificar su propio código: Entiende y puede modificar su propia base de código Python para tratar de auto-mejorar (por ejemplo, añadir una nueva herramienta, o sugerir un flujo de trabajo diferente).
-
Evaluar si el cambio mejora el rendimiento: Se evalúan nuevas versiones propuestas de sí mismas sobre puntos de referencia de codificación (como SWE-bench y Polyglot). Como muestran nuestros resultados, la mejora del rendimiento en los desafíos de codificación significa que también ha mejorado para mejorarse a sí misma.
-
Explorar de forma abierta el espacio de diseño de IA: Se añaden nuevos agentes a un archivo en constante expansión de agentes interesantes. Aprovechando el poder de endedlos algoritmos abiertos - terminados, las auto-modificaciones futuras pueden luego ramificarse de cualquier agente en este archivo en crecimiento, permitiendo la exploración paralela de muchos caminos evolutivos diferentes. Esta exploración abierta ayuda a la DGM a descubrir soluciones verdaderamente novedosas y evitar quedar atrapada en diseños subóptimas.
Si se hace de forma segura (ver nuestra sección dedicada a la seguridad más abajo), tal AI auto-mejora podría ayudarnos a aprovechar los enormes beneficios para la sociedad que AI tiene el potencial de iniciar.
Resultados
Los experimentos demuestran que la Máquina Darwin Gádel puede mejorarse continuamente modificando su propia base de código. Esto es cierto tanto en SWE-bench (un punto de referencia ampliamente utilizado que requiere agentes para resolver los problemas de GitHub del mundo real) como en el Polyglot (un punto de referencia de codificación en varios idiomas). En SWE-bench, la DGM mejoró automáticamente su rendimiento del 20,0% al 50,0%. En Polyglot, la DGM saltó el rendimiento de un 14,2% inicial al 30,7%, lo que supera con creces al agente representativo diseñado a mano por Aider. Estos beneficios sustanciales demuestran la capacidad de la DGM para descubrir y aplicar cambios beneficiosos en su propio código.
También validamos experimentalmente que la capacidad de la DGM para modificar su propio código acelera su propio aprendizaje (ver más abajo). Un control sin auto-mejora funciona mucho peor (DGM w/o Self-mejor en la figura siguiente). Además, los experimentos también muestran que el aprovechamiento de los principios de los algoritmos abiertos también fue clave: sin la búsqueda de inspiración de la revolución darwiniana basada en el cultivo de diferentes escalones, permitiendo así el cambio de meta y la exploración de muchos caminos diferentes en paralelo, el rendimiento fue menor (exploración de composición abierta en la figura siguiente).

La automejora y la exploración abierta
permiten a la DGM seguir avanzando y mejorando su rendimiento. La DGM
descubre automáticamente agentes de codificación cada vez mejores y se
desempeña mejor tanto en SWE-bench (izquierda) como en Polyglot
(derecha). Supera las bases de referencia que carecen de auto-mejora o
exploración abierta, mostrando que ambos componentes son esenciales para
la auto-mejora continua.
El linaje de las autosuperaciones de la DGM en SWE-Bench se visualiza en la figura de abajo, que representa el árbol evolutivo de agentes generados dentro de su creciente archivo. Esta estructura de ramificación es una consecuencia directa de la estrategia de exploración abierta de la DGM, donde muestra de un conjunto diverso de agentes generados previamente hasta nuevas modificaciones. Este proceso permite a las DGM explorar múltiples vías evolutivas simultáneamente. Observamos que algunos agentes menos de rendimiento, que podrían haber sido descartados por una optimización más simple de escalada de colinas, fueron fundamentales en descubrir características o enfoques novedosos que condujeron a avances significativos en sus descendientes, evitando así una convergencia prematura en soluciones subóptimas.
Las siguientes 2 figuras ilustran cómo la máquina Darwin Godel automáticamente se automejora para convertirse en un mejor agente de codificación:

Archivo de agentes de codificación generados durante la DGM se ejecutan en el banco SWE-bench.

Progresos en el rendimiento y resumen de las principales innovaciones de la DGM en la bancada SWE-SWE. La línea oscura muestra el linaje del agente final mejor descubierto. La DGM descubre diferentes herramientas para mejorar la edición de archivos y una estrategia de parche que combina múltiples generaciones con el ranking. Tenga en cuenta que el camino al mejor agente final a veces involucró a agentes que tuvieron peores resultados que sus padres, destacando los beneficios de la búsqueda abierta, incluyendo mantener un archivo de interesantes pasos de piedras para explorar, en lugar de sólo ramificarse del agente de mayor rendimiento descubierto hasta ahora.
Fundamentalmente, la DGM diseñó mejoras dentro de su propio diseño de agente que resultaron ser fundamentales y ampliamente transferibles, no meras adaptaciones excesivamente adaptadas a su modelo o tarea. Las mejoras descubiertas por la DGM (por ejemplo, mejores herramientas, flujos de trabajo refinados) generalizan para producir un mayor rendimiento en diferentes FM subyacentes. Por ejemplo, un agente optimizado con Claude 3.5 Sonnet también mostró un rendimiento mejorado cuando se alimentaba de o3-mini o Claude 3.7 Sonnet (izquierda dos paneles en la figura inferior). Esto demuestra que la DGM descubre mejoras generales de diseño de agentes en lugar de solo trucos específicos del modelo.

Transferencia de agentes entre modelos y tareas.
El rendimiento superior de los agentes descubiertos por la DGM se
puede transferir a través de diferentes modelos (izquierda y medio) y
diferentes dominios de tareas (derecha), como desde tareas de Python
hasta tareas en otros idiomas como Rust, C, Go y otros.
Esta transferibilidad también era evidente a través de los lenguajes de programación. Una variante de DGM cuyo proceso de auto-mejora se guió exclusivamente por su rendimiento en las tareas de Python dentro del índice de referencia de Polyglot demostró posteriormente importantes beneficios en tareas en lenguajes de programación completamente diferentes (como Rust, C y Go) de la misma referencia (panel derecho en la figura anterior).
Estos resultados muestran colectivamente que la Máquina Darwin Godel, a través de su modificación de código autorreferencial y exploración abierta, puede descubrir y implementar de manera autónoma mejoras cada vez más sofisticadas y generalizables a los agentes de inteligencia artificial.
DGM e IA Seguridad: Construcción de una automejora fiable
La perspectiva de sistemas de IA que mejoran autónomamente sus propias capacidades naturalmente lleva al primer plano el importante tema de la seguridad de la IA. Cuando una IA puede reescribir su propio código, es crucial que su desarrollo sea seguro y se alinee con las intenciones humanas. Las modificaciones optimizadas únicamente para mejorar el rendimiento en un punto de referencia podrían introducir comportamientos no deseados o crear sistemas demasiado complicados para la supervisión humana manual.
Desde el principio, la DGM se ha desarrollado teniendo en cuenta la seguridad. Todas las automodificaciones y evaluaciones ocurren dentro de entornos seguros y en cajas de arena, bajo supervisión humana y con límites estrictos en el acceso a la web. El archivo de la DGM también proporciona un linaje transparente y rastreable de cada cambio, y nuestras revisiones de los cambios que se han producido en nuestros experimentos muestran modificaciones centradas únicamente en mejorar las capacidades de codificación. Consulte nuestro artículo para una revisión más exhaustiva de nuestras prácticas y hallazgos de seguridad.
Más allá de mitigar los riesgos, la autosuperación podría ofrecer una nueva vía para mejorar la seguridad de la IA. En las investigaciones preliminares (detallada en nuestro documento), encargamos a la DGM que abordara su propia tendencia a fingir a veces utilizar herramientas externas en lugar de utilizarlas realmente (incluida la producción de las herramientas). Los resultados son alentadores: la DGM comenzó a identificar y proponer soluciones a estos problemas.
Sin embargo, sí nos dimos cuenta, y documentamos en nuestro documento, los casos en que la DGM hackeó su función de recompensa. Por ejemplo, tuvimos casos en los que alucinó que estaba usando herramientas externas, como una herramienta de línea de comandos que ejecuta pruebas de unidad que determinan si el código está funcionando correctamente. Fingió un tronco haciendo que pareciera que había hecho las pruebas y que habían pasado, cuando de hecho nunca fueron ejecutados. Debido a que estos registros se convierten en su contexto, más tarde pensó erróneamente que sus cambios de código propuestos habían pasado todas las pruebas de unidad.

Ejemplo de un modelo alucinando usando una herramienta de línea de comandos.
En este caso, el funcionamiento de pruebas unitarias que comprueben si
el código está funcionando correctamente. El modelo parece saber que
debe ejecutar las pruebas de la unidad, pero en lugar de hacerlo, sólo
crea un registro falso que hace que parezca que hizo que corrió las
pruebas y que todos pasaron.
Realizamos un experimento para ver si la DGM podía solucionar este problema. Creamos una función de recompensa de uso de herramientas y le pedimos a la DGM que optimice esa puntuación para resolver el problema de la alucinación. En muchos casos, la DGM sí proporcionó soluciones que abordaban este tipo de alucinaciones. Sin embargo, en algunos casos, eliminó los marcadores que usamos en la función de recompensa para detectar la alucinación (a pesar de nuestra instrucción explícita de no hacerlo), hackeando nuestra función de detección de alucinaciones para reportar éxitos falsos. Pudimos detectar eso porque la DGM proporciona un linaje transparente y rastreable de cada cambio que nos permite captar rápidamente tales comportamientos indeseables. Si bien en este caso se detectó fácilmente el problema, se necesita más trabajo para evitar que el modelo intente hacer trampa de esta manera en primer lugar.

Ejemplo de hackeo objetivo.
La figura muestra una solución de DGM que logró una puntuación perfecta
en una prueba de si fue uso de la herramienta alucinante mediante (a
pesar de las instrucciones de no) eliminar marcadores especiales de uso
de herramientas que añadimos para detectar tales alucinaciones,
saboteando la función de detección de alucinaciones.
En términos más generales, creemos que la seguridad debería ser el centro de cualquier investigación sobre la automejora de la IA. La comunidad necesita continuar investigando cómo explorar esta área prometedora, poderosa, responsablemente, incluyendo la creación de sistemas que estén alineados a lo largo de su auto-mejora, o incluso mejorar su propia seguridad, transparencia y alineación. Estas son orientaciones clave de investigación que nos comprometemos a explorar más a fondo.
Conclusión
Las máquinas Darwin Gál. representan un paso concreto hacia los sistemas de IA que pueden reunir de manera autónoma sus propios pasos para aprender e innovar para siempre. El trabajo futuro implicará ampliar el enfoque e incluso dejarlo mejorar la formación de los modelos de fundación en su núcleo. Debemos priorizar la seguridad en esta investigación porque, si podemos explorar esta dirección de forma segura, tiene la posibilidad de desbloquear beneficios incalculables para la sociedad, incluso permitiéndonos cosechar los beneficios del progreso científico acelerado mucho antes.
Citación
Maquina Darwin Godel: Evolución abierta de agentes automejorables
Jenny Zhang, Shengran Hu, Cong Lu, Robert Lange, Jeff Clune.
(o) co-primera autora
(o) coautor principal
Documento: https://arxiv.org/abs/2505.22954
Código: https://github.com/jennyzzt/dgm




