Etienne BOURSIER : Apprentissage séquentiel dans un environnement stratégique.

Directeur de thèse : Vianney Perchet
Soutenance le 30/09/21

Résumé :

En apprentissage séquentiel (ou jeux répétés), les données sont acquises et traitées à la volée et un algorithme (ou stratégie) apprend à se comporter aussi bien que s’il avait pu observer l’état de nature, par exemple les distributions des gains. Dans de nombreuses situations réelles, de tels agents intelligents ne sont pas seuls et interagissent ou interfèrent avec d’autres. Ainsi, leurs décisions ont un impact direct sur les autres agents et indirectement sur leurs propres gains à venir. Nous étudions de quelle manière les algorithmes d’apprentissage séquentiel peuvent se comporter dans des environnements stratégiques quand ils sont confrontés à d’autres agents.

Cette thèse considère différents problèmes où certaines interactions entre des agents intelligents joueurs, Théorie des jeux, Jeux répétés apparaissent, pour lesquels nous proposes des algorithmes efficaces en termes de calcul avec de bonnes garanties de performance (faible regret). Lorsque les agents sont coopératifs, la difficulté du problème vient de son aspect décentralisé, étant donné que les agents prennent leurs décisions en se basant seulement sur leurs propres observations. Dans ce cas, les algorithmes proposés non seulement coordonnent les agents afin d’éviter des interférences entre eux, mais ils utilisent également ces interférences pour transférer de l’information entre les agents. Cela permet d’obtenir des performances comparables aux meilleurs algorithmes centralisés. Avec des agents en concurrence, nous proposons des algorithmes avec des garanties satisfaisantes, à la fois en terme de performance et de stratégie (ε-équilibre de Nash par exemple).