Investigadores crearon una «meta-red» inspirada en la evolución que desarrolló DiscoRL (y su versión más exitosa, Disco57), un algoritmo de aprendizaje por refuerzo que demostró un rendimiento superior en tareas complejas y una mayor adaptabilidad que los diseños creados por ingenieros.

Tradicionalmente, la inteligencia artificial (IA), especialmente en el aprendizaje por refuerzo (donde la máquina aprende por recompensas), depende de algoritmos y reglas predefinidas por humanos. Sin embargo, un nuevo estudio publicado en la revista Nature revela un avance significativo: un sistema de IA que inventó su propia forma de aprender.
Inspiración evolutiva y el nacimiento de DiscoRL
Los científicos se inspiraron en la evolución natural, que opera mediante prueba y error, para crear una gran población digital de agentes de IA. Cada agente de esta población seguía una regla de aprendizaje específica y enfrentaba tareas en entornos complejos (como juegos de Atari).
- Meta-red: Una «meta-red» o IA principal observaba el desempeño de todos los agentes. Luego, esta IA modificaba las reglas de aprendizaje para que la siguiente generación mejorara su rendimiento.
- DiscoRL y Disco57: Mediante este proceso, la IA descubrió una nueva forma de aprendizaje denominada DiscoRL. Su versión más exitosa, Disco57 (evaluada en 57 juegos de Atari), superó a todos los algoritmos diseñados por humanos.
Pruebas y resultados impresionantes
Los investigadores usaron Disco57 para entrenar un nuevo agente y lo compararon con potentes algoritmos diseñados por humanos, como PPO y MuZero.
- Rendimiento Superior: El agente entrenado con DiscoRL obtuvo resultados significativamente mejores en el famoso Atari Benchmark.
- Adaptabilidad: En entornos desconocidos y complejos (como ProcGen, Crafter y NetHack), el agente mantuvo un rendimiento de vanguardia, demostrando que la regla de aprendizaje que inventó era altamente adaptable.
Este hallazgo sugiere que en el futuro, los algoritmos de aprendizaje por refuerzo podrían surgir automáticamente de la experiencia de las propias máquinas, reduciendo la dependencia de la intuición humana.
La información y los datos provienen de ROBOTITUS, con base en el estudio publicado en la revista Nature y la investigación realizada por científicos de la Universidad Estatal de Oregón.
Descubre más desde NotaTrasNota
Suscríbete y recibe las últimas entradas en tu correo electrónico.
