1. Optimal Control problem
최적 제어(Optimal Control)는 아래의 그림에서 제어 입력(control)

여기서 위 시스템의 dynamics와 cost function을 다음과 같이 상정해보자.
(2)의
참고로 (1)에서
그리고 아래와 같이 각 시점에서의 최적 제어를 찾아 목표에 달성한 optimal cost function의 존재에 대해 생각해볼 수 있다.
제어 이론에서는 이 optimal cost function를 value function 혹은 cost-to-go function 이라고 칭한다. 시스템이 위의 optimal cost를 달성할 수 있으면 최적화 프로세스를 끝내고 실제의 제어 입력을 투입할 수 있기 때문에 "cost-to-go"라고 명명했다고 한다.
개념의 혼동을 막기위해 덧붙이자면 강화학습에서는
2. Hamilton-Jacobi-Bellman(HJB) Equation
해밀턴 자코비 벨만 방정식(HJB equation)은 제어 입력의 최적성(optimality)에 대해 필요 충분 조건을 제시함으로써 최적 제어 이론에서 현 시점 가장 중요한 방정식으로 자리매김하고 있다. 일반적으로 해밀턴 자코비 벨만 방정식은 식 (3)의 value function에 대한 비선형 편미분 방정식 형태를 띄고 있다. 즉 이 방정식의 해는 value function 자신이 된다는 의미이다. 일단 이 해가 알려지면 해밀턴 자코비 방정식 내부의 해밀토니안(Hamiltonian)에 대해 최대 or 최솟값을 구해서 최적 제어를 얻을 수 있게 된다.
* Note : "Hamiltonian" in Pontryagin's Minimum(Maximum) Principle
해밀턴 자코비 벨만 방정식을 논의하기 전에 먼저 최적 제어 문제에서 사용되는 해밀토니안(Hamiltonian)의 존재에 대해 살펴볼 필요가 있다. 여기서 해밀토니안은 식 (1)과 같은 dynamical system을 위한 최적 제어 문제를 해결하기 위해 사용되는 함수로서 Lev Pontryagin의 Minimum(Maximum) principle에서 처음 등장한다. 식 (2)의
여기서
식 (4)가 바로 해밀토니안으로서 라그랑지안 형식으로 표현된 최적화 대상 함수(objective function)이다. 이 노트에선 이러한 해밀토니안의 개념만 킵해두고 가자.
2.1 Hamilton-Jacobi-Bellman(HJB) Equation formula
Richard E. Bellman은 이 최적화된 해밀토니안이 value function의 시간에 대한 미분값에 음수를 취한 것과 같아야함을 제시하였는데, 이것이 바로 해밀턴 자코비 벨만 방정식(HJB Equation)이다.
아래에서 이 해밀턴 자코비 벨만 방정식이 어떻게 유도되었는지 살펴보도록 한다.
2.2 Derivation of the HJB Equation
기술할 해밀턴 자코비 벨만 방정식 유도를 위해선 Dynamic programming과 테일러 전개에 대한 사전 지식이 필요하다. 이것들을 간단하게 리뷰해보자.
* Note : Dynamic Programming과 Bellman Optimality
Dynamic programming은 Bellman Optimality로부터 비롯되는 알고리즘이라고 할 수 있다.
Bellman Optimality는 위에서 봤던 최적 제어 문제를 아래의 그림처럼 임의의 중간 지점

식 (3)의 value function 표현에서 terminal point까지 변수로 만들어 수식으로 표현하면 아래와 같다.
이 Bellman Optimality를 일반화시키면 어떠한 길고 복잡한 trajectory를 갖는 system을 상대적으로 더 간단한 작은 time step으로 쪼개어 풀어도 최적성이 유지됨을 시사한다. 그리고 이것이 정확히 dynamic programming의 프로세스다.
* Note: 테일러 전개(Taylor Expansion)
여기선 테일러 전개에 대해 간단하게 알아보고자 한다.
테일러 전개는 특정 지점에서 잘 모르는 함수에 대해 근사하여 알아내는 수학적 도구이다. 만약 1) target이 되는 지점과 다른 source에서의 함수 값을 알고, 2) 그 source에서의 n계 도함수 값을 알 수 있다면 테일러 전개를 활용하여 target 지점의 함수값을 근사할 수 있다. 여기서 target과 source의 거리가 멀어질수록, 근사의 정확도를 위해 더 높은 n계 도함수가 필요하다.
해당 함수를
만약
이런식으로 다변수 함수에 대해서도 일반화할 수 있다.
테일러 전개는 머신러닝 논문에서의 모델링 과정, 수학적인 증명 과정, Theorem 도출 과정 등 곳곳에서 다양하게 활용된다. 이때 함수에 관한 특별한 이슈가 있지 않는 이상 보통 계산의 복잡성 대비 근사치에 대한 낮은 효율로 인해 통상 1계 도함수까지만 사용해서 근사식으로 사용한다. 그러나 시스템이 확률미분방정식(Stochastic Differential Equation)인 경우에서는 2계 도함수까지 근사해야 정석이 되는데, 이는 Stochastic case의 HJB 방정식을 다루는 다음 포스팅에서 자세히 다룬다.
1변수 및 2변수 함수의 target 지점이 각각 source 에서 작은 단위로 떨어져 있는 곳이라 할 때 주로 표현되는 일반적인 함수 근사식은 그러므로 아래와 같다.
이제 필요한 툴들은 모두 갖추었으니 해밀턴 자코비 벨만 방정식을 유도해보자. 여기서의 사용되는 시간은
식 (13)은 앞서 정의한 dynamic programming에 의해 전개되었다. 식 (15)의
이렇게 해밀턴 자코비 벨만 방정식이 유도됨을 살펴볼 수 있다.
2.3 How to use HJB Equation
해밀턴 자코비 벨만 방정식을 이용해 최적 제어를 구하는 문제는 다음과 같은 과정을 갖는다.
1.
2. ansatz로 추론한
3. First order condition으로
4. 최적 제어 형태
해밀턴 자코비 벨만 방정식을 이용해 위와 같은 프로세스를 거치면 선형은 물론 비선형 시스템에 대한 최적 제어를 구할 수 있다. 해밀턴 자코비 벨만 방정식의 특장점은 상태 방정식이 ODE 뿐 아니라 SDE(Stochastic Differential Equation)형식으로 전개되어 확률론적 최적 제어(Stochastic Optimal Control)문제로 확장되어도 그대로 적용해도 된다는 점이다. 본 컨텐츠를 상세히 포스팅한 것도 그 동기이지만 그래서 dynamics가 SDE로 모델링되는 자산 가격이 직,간접적으로 상태(state)로서 포함되는 다양한 금융 문제(ex. 포트폴리오 최적화, 옵션의 공정 가격, 최적 매수 매도 호가 지정 등등)를 다루는 논문들에서 해밀턴 자코비 벨만 방정식을 이용하여 해를 찾기도 한다.
한편 HJB 방정식은 상태
앞서 식 (1)의
3. LQR example
problem)
계산의 편의를 위해
solution)
1.
위의 cost function
와 같이 어떤 parameter matrix
2. ansatz로 추론한
이므로
3. First order condition으로
4. 최적 제어 형태
3번에서 구한 최적 제어는 H의 최소값을 보장하는 닫힌 해(closed-form solution)이다. 그러므로 위 2번에서 구한 HJB 방정식의
참고로 여기서 4번의 마지막 식
algebraic riccati equation에서
이런 식으로 다른 문제에 적용할 때에 시스템의 상황 별로 4번까지 진행하여 나온 방정식을 풀어 최적 제어를 구해야한다.
4. Conclusion
본 포스팅에선 HJB 방정식과 그 유도, 사용법에 대해 살펴보았다. HJB 방정식은 dynamic problem에서 최적제어를 구할 때 사용되며, system이 linear일 때, nonlinear 일때, deterministic dynamics일 때, stochastic dynamics일 때 모두 사용되는 유용한 툴이다. 본 포스팅에서는 deterministic dynamics를 갖는 시스템에서 HJB 방정식을 유도했는데 금융과 같은 분야는 예를 들면 자산 가격과 같은 것을 상태 방정식으로 하여 Stochastic dynamics를 가지므로 다른 형태의 HJB 방정식이 유도된다. 이 때 Ito calculus가 사용되는데, 그것까지 설명하면 너무 포스팅이 길어져 부득이 2부까지 포스팅하게 되었다. 다음 포스팅에서는 Stochastic case의 HJB 방정식에 대해 살펴보겠다.
Reference
1. Bechhoefer, J. (2021). Control Theory for Physicists. Cambridge University Press.
'Finance > Financial Mathematics' 카테고리의 다른 글
해밀턴-자코비-벨만 방정식 2 (Stochastic case) (feat. Ito's lemma) (3) | 2022.04.12 |
---|---|
Geometric Brownian Motion의 해, 평균, 분산 (0) | 2022.04.12 |
Brownian motion(Wiener process)과 quadratic variation (0) | 2022.04.12 |