Le programme d'études du projet Shatranj.ai peut être consulté à l'adresse suivante lms.shatranj.ai
Vous trouverez ci-dessous de brefs résumés des thèmes abordés dans le cadre du programme d'études.
Explore comment les moteurs d'échecs modernes ont évolué et comment les moteurs open-source peuvent être adaptés aux variantes historiques.
Présente l'apprentissage par renforcement (RL) en résolvant un petit monde en grille exactement lorsque les règles sont connues, puis montre pourquoi cette approche “omnisciente” ne fonctionne pas pour les grands jeux tels que les échecs.
Passage de la planification à l'apprentissage : l'agent commence sans carte et apprend une politique par essais et erreurs à l'aide de l'apprentissage Q tabulaire.
Applique l'apprentissage Q à une petite fin de partie d'échecs et rend la base de code RL “réelle” en séparant le cahier d'expériences des modules d'apprentissage et de formation.
Introduit l'approximation de fonction pour RL en remplaçant la table Q par un réseau neuronal (DQN) et en l'appliquant à plusieurs petits jeux de société.
Construit un environnement Qirkat complet, puis passe de déploiements aléatoires à une recherche arborescente Monte Carlo (MCTS) complète avec sélection UCT.
Amélioration des SCTM en recherche de type AlphaZero par l'ajout d'un réseau neuronal qui fournit une politique préalable et une estimation de la valeur, puis s'entraîne par auto-apprentissage.
Amélioration des SCTM en recherche de type AlphaZero par l'ajout d'un réseau neuronal qui fournit une politique préalable et une estimation de la valeur, puis s'entraîne par auto-apprentissage.
Mise en œuvre de Turkish Checkers et comparaison de la recherche classique (alpha-bêta) avec MCTS à l'aide d'un moteur de recherche réutilisable et de journaux de simulation par lots.