Commande optimale: solution LQR

  Рет қаралды 2,683

Alexandre Girard

Alexandre Girard

Күн бұрын

17e capsule d'une série sur la commande optimale et l'apprentissage par renforcement qui sont présentés sous la base commune de la programmation dynamique.
Cette capsule présente la solution analytique, connue sous le nom de LQR, au problème de commande optimale dans un cas ou la dynamique du système est linéaire, la fonction de coût est quadratique et il n'y a pas de contraintes sur les états ni les actions. La loi de commande optimale est alors linéaire en fonction des états.
La série de capsule va couvrir les sujets suivants:
Principe d'optimalité (Richard Bellman 50s)
Exemple de commande optimale d'un pendule
Algorithme de programmation dynamique (version générique)
Exemple pour les systèmes continus
Version de l'algorithme pour les systèmes à états discrets et actions discrètes
Exemple pour trouver le chemin le plus court sur graphe
Systèmes stochastiques et espérance de la fonction de coût
Algorithme de programmation dynamique pour optimiser l'espérance d'une fonction de coût
Exemple d'un contrôle d'inventaire optimal en fonction d'une demande aléatoire
Systèmes de type chaînes de Markov (stochastique, états discrets et actions discrètes)
Exemple de stratégie optimale pour un jeu
Résultats pour les systèmes linéaires et solution LQR (équation de Riccati)
Algorithme de commande robuste de type minimax
Optimisation pour un horizon de temps infini
Algorithme d'itération de valeur (value iteration)
Algorithme d'itération de loi de commande (policy iteration)
Apprentissage par renforcement (TD-learning, Q-learning, SARSA, etc.)
Méthodes hors-ligne pour approximer et paramètrer la fonction de coût à venir
Apprentissage par renforcement avec des réseaux de neurones (deep reinforcement learning)
Méthodes en-ligne pour approximer la fonction de coût à venir
Commande prédictive (MPC)
Matériel pédagogique associé (notes de cours, exemple de code, etc.) et portfolio de projets disponible sur le site : www.alexandreg...

Пікірлер
Apprentissage par renforcement avec une approximation de fonction
17:14
Introduction to Linear Quadratic Regulator (LQR) Control
1:36:07
Christopher Lum
Рет қаралды 133 М.
人是不能做到吗?#火影忍者 #家人  #佐助
00:20
火影忍者一家
Рет қаралды 20 МЛН
Что-что Мурсдей говорит? 💭 #симбочка #симба #мурсдей
00:19
Reinforcement Learning: Machine Learning Meets Control Theory
26:03
Steve Brunton
Рет қаралды 291 М.
Policy and Value Iteration
16:39
CIS 522 - Deep Learning
Рет қаралды 158 М.
DIFFERENTIAL EQUATIONS 3
11:58
BIRDWOOD SENIOR SECONDARY MATHEMATICS
Рет қаралды 64
Boeing, panique dans les airs
23:28
BFMTV
Рет қаралды 644 М.
Reinforcement Learning Series: Overview of Methods
21:37
Steve Brunton
Рет қаралды 107 М.
Calculus of Variations ft. Flammable Maths
21:10
vcubingx
Рет қаралды 146 М.
人是不能做到吗?#火影忍者 #家人  #佐助
00:20
火影忍者一家
Рет қаралды 20 МЛН