Наставната програма на проектот Shatranj.ai може да се пристапи преку лмс.шатранџ.аи
Подолу се дадени кратки резимеа на темите во наставната програма.
Истражува како модерните шаховски мотори еволуираа и како моторите со отворен код можат да се прилагодат на историски варијанти.
Воведува учење преку засилување (RL) преку решавање на мала мрежна игра точно кога правилата се познати, а потоа покажува зошто овој “сè-знаечки” пристап не функционира за големи игри како шах.
Преминува од планирање кон учење: агентот започнува без мапа и учи политика преку обиди и грешки користејќи табеларно Q-учење.
Применува Q-учење на мал шаховски ендшпил и го прави RL кодниот базен “реален” со разделување на бележникот за експерименти од модулите за учење и обука.
Воведува приближување на функцијата за RL преку замена на Q-табелата со невронска мрежа (DQN) и ја применува на неколку мали друштвени игри.
Изградува целосна Qirkat околина и потоа напредува од случајни лансирања до целосна Monte Carlo Tree Search (MCTS) со UCT селекција.
Го надградува MCTS во пребарување во стилот на AlphaZero со додавање на невронска мрежа која обезбедува политика-приор и проценка на вредноста, а потоа се тренира преку самоиграње.
Го надградува MCTS во пребарување во стилот на AlphaZero со додавање на невронска мрежа која обезбедува политика-приор и проценка на вредноста, а потоа се тренира преку самоиграње.
Имплементира турски дами и ја споредува класичната претрага (алфа–бета) со MCTS, користејќи повторно употреблив match runner и групни логови од симулации.