Linear Q-Learning - Doble Péndulo Invertido



Fig1: Doble péndulo invertido sobre un móvil.


Se ha implementado los algoritmos de aprendizaje por refuerzo Linear Q-Learning y Deep Q-Learning para lograr la convergencia del movimiento de un doble péndulo invertido a su estado de equilibrio. Los resultados indican que para una perturbación uniformemente aleatoria de la posición de equilibrio en un pequeño intervalo, los algoritmos realizan entre 100 y 300 iteraciones de promedio para lograr la convergencia. Esta aplicación del Aprendizaje Automático al control de sistemas complejos y caóticos refuerzan el enfoque de los algoritmos de aprendizaje en muchas campos donde se requiere lograr la autonomía del agente o sistema, frente a los controladores clásicos usados usualmente.

Artículo completo aquí.

Comentarios

Entradas populares de este blog

Teoría de la información > Entropía y Criptografía

Esquema de cifrado compartido de Shamir