이를 bellman operator라고 하고 기호 τ를 이용해 표현한다. 구체적으로 expected bellman operator와 bellman optimality operator는 다음과 같이 정의된다.
τπ(v)=Rπ+γPπvπτ∗(v)=a∈Amax(Ra+γPav)
Bellman operator는 수학적으로 IRn→IRn로, 다시 말해 IRn 공간의 어떤 한 점에서 다른 한 점으로 매핑한다는 의미를 가진다. 이와 같은 특성을 이용하면 operator theory의 unique fixed point 개념을 적용하여 모델의 수렴성 여부를 판단할 수 있다.
Usage of Bellman Operator
Contraction of Bellman operator
어떤 Bellman operator가 수축(contraction)한다는 것은 다음이 성립한다는 것을 의미한다.
for any policyπany initial vectorv,k→∞lim(τπ)k=vπ,k→∞lim(τ∗)k=v∗wherevπis the value of policyπandv∗is the value of an optimal policyπ∗
즉, 수축한다는 것은 어떤 v vector에서 어떤 policy를 가지고 시작하더라도 무한히 반복하면 해당 policy의 vπ로 수렴하게 된다는 것을 의미한다.