Commande optimale d'un pendule par programmation dynamique: démonstration avec une librairie Python

  Рет қаралды 948

Alexandre Girard

Alexandre Girard

Күн бұрын

2e capsule d'une série sur la commande optimale et l'apprentissage par renforcement qui sont présentés sous la base commune de la programmation dynamique.
Vous pouvez voir, modifier et executer le code dans colab en ligne ici: colab.research...
Cette capsule présente un exemple concret d'utilisation de la programmation dynamique, ici l'algorithme d'itération de valeur, pour calculer une loi de commande optimale numériquement.
La série de capsule va couvrir les sujets suivants:
Principe d'optimalité (Richard Bellman 50s)
Exemple de commande optimale d'un pendule
Algorithme de programmation dynamique (version générique)
Exemple pour les systèmes continus
Version de l'algorithme pour les systèmes à états discrets et actions discrètes
Exemple pour trouver le chemin le plus court sur graphe
Systèmes stochastiques et espérance de la fonction de coût
Algorithme de programmation dynamique pour optimiser l'espérance d'une fonction de coût
Exemple d'un contrôle d'inventaire optimal en fonction d'une demande aléatoire
Systèmes de type chaînes de Markov (stochastique, états discrets et actions discrètes)
Exemple de stratégie optimale pour un jeu
Résultats pour les systèmes linéaires et solution LQR (équation de Riccati)
Algorithme de commande robuste de type minimax
Optimisation pour un horizon de temps infini
Algorithme d'itération de valeur (value iteration)
Algorithme d'itération de loi de commande (policy iteration)
Apprentissage par renforcement (TD-learning, Q-learning, SARSA, etc.)
Méthodes hors-ligne pour approximer et paramètrer la fonction de coût à venir
Apprentissage par renforcement avec des réseaux de neurones (deep reinforcement learning)
Méthodes en-ligne pour approximer la fonction de coût à venir
Commande prédictive (MPC)
Matériel pédagogique associé (notes de cours, exemple de code, etc.) et portfolio de projets disponible sur le site : www.alexandreg...

Пікірлер
Мен атып көрмегенмін ! | Qalam | 5 серия
25:41
To Brawl AND BEYOND!
00:51
Brawl Stars
Рет қаралды 17 МЛН
Cat mode and a glass of water #family #humor #fun
00:22
Kotiki_Z
Рет қаралды 42 МЛН
Everything You Need to Know About Control Theory
16:08
MATLAB
Рет қаралды 586 М.
Linear Regression From Scratch in Python (Mathematical)
24:38
NeuralNine
Рет қаралды 187 М.
RBF: The Most Liked Formula in Machine Learning
25:37
Mashaan Alshammari
Рет қаралды 71
Variational Autoencoders
15:05
Arxiv Insights
Рет қаралды 520 М.
Where Does Bad Code Come From?
42:21
Molly Rocket
Рет қаралды 205 М.
Les espions russes au coeur de l’Élysée |LCI
15:44
2,000 People Fight For $5,000,000
24:45
MrBeast
Рет қаралды 77 МЛН
Modern Python logging
21:32
mCoding
Рет қаралды 209 М.
Why Does Diffusion Work Better than Auto-Regression?
20:18
Algorithmic Simplicity
Рет қаралды 399 М.
Мен атып көрмегенмін ! | Qalam | 5 серия
25:41