Curriculum-ul proiectului Shatranj.ai poate fi accesat prin lms.shatranj.ai
Mai jos sunt rezumate scurte ale subiectelor din curriculum.
Explorează modul în care au evoluat motoarele moderne de șah și modul în care motoarele open-source pot fi adaptate la variantele istorice.
Prezintă învățarea prin întărire (RL) prin rezolvarea unui mic gridworld exact atunci când regulile sunt cunoscute, apoi arată de ce această abordare “atotcunoscătoare” nu este valabilă pentru jocuri mari precum șahul.
Trece de la planificare la învățare: agentul începe fără hartă și învață o politică prin încercare și eroare folosind învățarea tabulară Q.
Aplică învățarea Q la un mic final de joc de șah și face baza de cod RL “reală” prin separarea caietului de experimente de modulele de învățare și formare.
Prezintă aproximarea funcțiilor pentru RL prin înlocuirea tabelului Q cu o rețea neuronală (DQN) și aplicarea acesteia la mai multe jocuri de societate mici.
Construiește un mediu Qirkat complet și apoi progresează de la lansări aleatorii la căutarea completă în arbore Monte Carlo (MCTS) cu selecție UCT.
Actualizează MCTS în stilul de căutare AlphaZero prin adăugarea unei rețele neuronale care furnizează o politică prealabilă și o estimare a valorii, apoi se antrenează prin joc propriu.
Actualizează MCTS în stilul de căutare AlphaZero prin adăugarea unei rețele neuronale care furnizează o politică prealabilă și o estimare a valorii, apoi se antrenează prin joc propriu.
Implementează Turkish Checkers și compară căutarea clasică (alfa-beta) cu MCTS utilizând un program de execuție reutilizabil și jurnale de simulare pe loturi.