Chemin le plus court sur un graphe - exemple de solution par programmation dynamique

  Рет қаралды 2,464

Alexandre Girard

Alexandre Girard

Күн бұрын

7e capsule d'une série sur la commande optimale et l'apprentissage par renforcement qui sont présentés sous la base commune de la programmation dynamique.
Cette capsule présente un exemple d'utilisation de l'algorithme de programmation dynamique dans le contexte d'un système avec des états discrets et des actions discrètes. Ici on calcul les lois de commande optimale dans un contexte de navigation, qui correspond à trouver la solution du chemin le plus court sur un graphe (shortest path problem).
La série de capsule va couvrir les sujets suivants:
Principe d'optimalité (Richard Bellman 50s)
Exemple de commande optimale d'un pendule
Algorithme de programmation dynamique (version générique)
Exemple pour les systèmes continus
Version de l'algorithme pour les systèmes à états discrets et actions discrètes
Exemple pour trouver le chemin le plus court sur graphe
Systèmes stochastiques et espérance de la fonction de coût
Algorithme de programmation dynamique pour optimiser l'espérance d'une fonction de coût
Exemple d'un contrôle d'inventaire optimal en fonction d'une demande aléatoire
Systèmes de type chaînes de Markov (stochastique, états discrets et actions discrètes)
Exemple de stratégie optimale pour un jeu
Résultats pour les systèmes linéaires et solution LQR (équation de Riccati)
Algorithme de commande robuste de type minimax
Optimisation pour un horizon de temps infini
Algorithme d'itération de valeur (value iteration)
Algorithme d'itération de loi de commande (policy iteration)
Apprentissage par renforcement (TD-learning, Q-learning, SARSA, etc.)
Méthodes hors-ligne pour approximer et paramètrer la fonction de coût à venir
Apprentissage par renforcement avec des réseaux de neurones (deep reinforcement learning)
Méthodes en-ligne pour approximer la fonction de coût à venir
Commande prédictive (MPC)
Matériel pédagogique associé (notes de cours, exemple de code, etc.) et portfolio de projets disponible sur le site : www.alexandreg...

Пікірлер
To Brawl AND BEYOND!
00:51
Brawl Stars
Рет қаралды 17 МЛН
The evil clown plays a prank on the angel
00:39
超人夫妇
Рет қаралды 53 МЛН
REAL or FAKE? #beatbox #tiktok
01:03
BeatboxJCOP
Рет қаралды 18 МЛН
Ensembles - Notions de base
11:29
Alexandre Girard
Рет қаралды 72
Modélisation avec les équations d'état: exemple
11:00
Alexandre Girard
Рет қаралды 105
"Speden spelit" -loppukilpailu 2024
2:46
Manne Hannula
Рет қаралды 127
Apprentissage par renforcement vs. commande optimale
17:15
Alexandre Girard
Рет қаралды 148
Retour sur la Pau-lémique : la situation y est alarmante - ABC - C à Vous - 17/12/2024
9:07
C à vous - France Télévisions
Рет қаралды 59 М.
Les SECRETS De Ma Relation Avec OBAMA - SEFORA KODJO
8:12
L'Investisseur Africain
Рет қаралды 6 М.
Apprentissage par renforcement: observations partielles
13:29
Alexandre Girard
Рет қаралды 86
Apprentissage par renforcement: politiques stochastiques
23:30
Alexandre Girard
Рет қаралды 91
To Brawl AND BEYOND!
00:51
Brawl Stars
Рет қаралды 17 МЛН