Minseo Park

Algorithm parameters: step size $α \in (0, 1], ϵ > 0$
Initialize $Q (s, a), \forall s \in S^{+}, a \in A (s),$ arbitrarily except that $Q (t e r m i n a l, \cdot) = 0$
Loop for each episode:
Initialize $S$
Loop for each step of episode:
Choose $A$ from $S$ using some policy derived from $Q$ (eg $ϵ$ -greedy)
Take action $A$ , observe $R, S^{'}$
$Q (S, A) \leftarrow Q (S, A) + α [R + γ max_{a} (S^{'}, a) - Q (S, A)]$
$S \leftarrow S^{'}$
until $S$ is terminal