Équation de Bellman pour une optimisation sur un horizon de temps infini

  Рет қаралды 831

Alexandre Girard

Alexandre Girard

Күн бұрын

10e capsule d'une série sur la commande optimale et l'apprentissage par renforcement qui sont présentés sous la base commune de la programmation dynamique.
Cette capsule présente la formulation d'un problème de décision en temps réel pour un horizon de temps infini, et les équations de Bellman qui représentent le système d'équations à résoudre pour déterminer la solution.
La série de capsule va couvrir les sujets suivants:
Principe d'optimalité (Richard Bellman 50s)
Exemple de commande optimale d'un pendule
Algorithme de programmation dynamique (version générique)
Exemple pour les systèmes continus
Version de l'algorithme pour les systèmes à états discrets et actions discrètes
Exemple pour trouver le chemin le plus court sur graphe
Systèmes stochastiques et espérance de la fonction de coût
Algorithme de programmation dynamique pour optimiser l'espérance d'une fonction de coût
Exemple d'un contrôle d'inventaire optimal en fonction d'une demande aléatoire
Systèmes de type chaînes de Markov (stochastique, états discrets et actions discrètes)
Exemple de stratégie optimale pour un jeu
Résultats pour les systèmes linéaires et solution LQR (équation de Riccati)
Algorithme de commande robuste de type minimax
Optimisation pour un horizon de temps infini
Algorithme d'itération de valeur (value iteration)
Algorithme d'itération de loi de commande (policy iteration)
Apprentissage par renforcement (TD-learning, Q-learning, SARSA, etc.)
Méthodes hors-ligne pour approximer et paramètrer la fonction de coût à venir
Apprentissage par renforcement avec des réseaux de neurones (deep reinforcement learning)
Méthodes en-ligne pour approximer la fonction de coût à venir
Commande prédictive (MPC)
Matériel pédagogique associé (notes de cours, exemple de code, etc.) et portfolio de projets disponible sur le site : www.alexandreg...

Пікірлер
L'équation de Bellman: les éléments impliqués dans l'équation
13:31
Alexandre Girard
Рет қаралды 1,5 М.
Transforming an infinite horizon problem into a Dynamic Programming one
14:50
Quilt Challenge, No Skills, Just Luck#Funnyfamily #Partygames #Funny
00:32
Family Games Media
Рет қаралды 55 МЛН
UFC 310 : Рахмонов VS Мачадо Гэрри
05:00
Setanta Sports UFC
Рет қаралды 1,2 МЛН
So Cute 🥰 who is better?
00:15
dednahype
Рет қаралды 19 МЛН
Infinite horizon continuous time optimization
20:56
Constantin Bürgi
Рет қаралды 23 М.
Apprentissage par renforcement vs. commande optimale
17:15
Alexandre Girard
Рет қаралды 148
Intégrales et primitives : exercices
18:56
Maths Lycée
Рет қаралды 85
Does Infinity - Infinity = an Electron?
17:12
PBS Space Time
Рет қаралды 341 М.
Euler Equation in Economics - Deriving over an Infinite Horizon
20:48
Commande optimale: programmation dynamique et équations de Bellman
27:31
Alexandre Girard
Рет қаралды 3,7 М.
Quilt Challenge, No Skills, Just Luck#Funnyfamily #Partygames #Funny
00:32
Family Games Media
Рет қаралды 55 МЛН