두 행렬(matrix)의 기하평균(geometric mean)에 대하여

      Comments Off on 두 행렬(matrix)의 기하평균(geometric mean)에 대하여

주어진 두 실수 $a,\, b \in \R$의 평균(mean)을 구하는 다양한 방법이 존재하지만, 그 중에서 가장 잘 알려진 평균으로는 $a,\, b$의

  • 산술평균(arithmetic mean): $A(a,\,b) = \dfrac{a+b}{2}$
  • 기하평균(geometric mean): $G(a,\, b) = \sqrt{ab}$, (단, $a,\, b > 0$)
  • 조화평균(harmonic mean): $H(a,\, b) = \dfrac{2}{a^{-1} + b^{-1}}$, (단, $a,\, b \neq 0$)

이 있다. 앞으로의 논의를 간단히 하기 위해서 (세 평균을 자연스럽게 정의하기 위한 공통 범위인) $a,\, b > 0$인 경우만 고려해 주도록 하자.

$ $

위와 같이 두 양의 실수 $a,\, b > 0$에 대한 세 가지 평균을 두 $n \times n$ 정사각행렬 $A,\, B$로 확장하기 위해서는 우선 행렬에 대한 부등식 $A,\, B > 0$의 개념부터 정의해야 한다. 주어진 $n \times n$ 정사각행렬 $A$에 대하여 $A = A^{\T}$가 성립할 때, $A$를 대칭행렬(symmetric matrix)라 한다. 또한 $A$가 대칭행렬이면서 임의의 벡터 $x \in \R^{n}$에 대하여 $x^{\T}Ax \geq 0$을 만족하면 $A$를 양의 준정부호 행렬(positive semidefinite matrix)라 하고, 임의의 영이 아닌 벡터 $x \neq 0$에 대하여 $x^{\T}Ax > 0$을 만족하면 $A$를 양의 정부호 행렬(positive definite matrix)이라 한다. 이러한 개념들을 이용하여 뢰브너 순서(Loewner order)로 불리는 반순서(partial order) 관계를 정의할 수 있다.

$ $

정의. 뢰브너 순서(Loewner order)

$A,\, B$가 $n \times n$ 대칭행렬이라 하자. 만약 $A$가 양의 정부호 (준정부호) 행렬인 경우 $A > 0$ ($A \geq 0$)으로 나타낸다. 또한 $A - B$가 양의 정부호 (준정부호) 행렬인 경우, 즉, $A - B > 0$ ($A - B \geq 0$)인 경우, $A > B$ ($A \geq B$)와 같이 나타낸다.

$ $

그럼 다음과 같이 두 행렬에 대한 평균을 정의할 수 있다.

$ $

$a,\, b > 0$ $A,\, B > 0$
산술평균 $A(x,\, y)$ $\dfrac{a+b}{2}$ $\dfrac{A+B}{2}$
조화평균 $H(x,\, y)$ $\dfrac{2}{a^{-1} + b^{-1}}$ $2(A^{-1} + B^{-1})^{-1}$
기하평균 $G(x,\, y)$ $\sqrt{ab}$ $(AB)^{1/2} \, ??$

$ $

하지만 여기서 문제가 하나 생긴다. 일반적으로 두 행렬 $A,\, B > 0$에 대하여 $AB > 0$이 성립하기 위해서는 $AB = BA$를 만족해야만 한다.(1) 따라서 $G(A,\,B) = (AB)^{1/2}$는 $AB = BA$가 성립하지 않는 경우 정의하는 것이 불가능하다. 그렇다면 $A$와 $B$의 기하평균은 어떻게 정의해야 할까?

$ $

행렬에 대한 기하평균을 정의하기 위해서, 우선 기하평균이 만족해야할 자연스러운 성질에 대해서 살펴보자. 두 실수 $a,\, b > 0$의 기하평균 $G(a,\,b)$가 다음 조건들을 모두 만족한다.

  1. 일관성(consistency): $G(1,\, a) = \sqrt{a}$
  2. 대칭성(summetry): $G(a,\, b) = G(b,\, a)$
  3. 유계성(boundedness): 만약 $a \geq b$이면, $a \geq G(a,\, b) \geq b$
  4. 단조성(monotonicity): 만약 $a' \geq a$이고 $b' \geq b$이면, $G(a',\, b') \geq G(a,\, b)$
  5. 동차성(homogenuity): $G(ta,\, tb) = tG(a,\, b), \; \forall\, t > 0$

$ $

위의 성질들을 자연스럽게 확장하면 두 행렬 $A,\, B > 0$에 대한 기하평균 $G(A,\,B)$가 만족해야할 성질들에 대하여 생각해 볼 수 있다.(2)

  1. 일관성(consistency): $G(I,\, A) = A^{1/2}$
  2. 대칭성(summetry): $G(A,\, B) = G(B,\, A)$
  3. 유계성(boundedness): 만약 $A \geq B$이면, $A \geq G(A,\, B) \geq B$
  4. 단조성(monotonicity): 만약 $A' \geq A$이고 $B' \geq B$이면, $G(A',\, B') \geq G(A,\, B)$
  5. 동차성(homogenuity): $G(tA,\, tB) = tG(A,\, B), \; \forall\, t > 0$
  6. 합동불변성(congruence invariance): $G(X^{\T}AX,\, X^{\T}BX) = X^{\T}G(A,\, B)X, \; \forall\, X \in \operatorname{GL}(n,\, \R)$

$ $

위의 조건들을 보건 합동불변성이 추가되었음을 알 수 있는데, 그 이유는 다음과 같다. 우선 $A$가 양의 정부호 행렬이므로 $A^{1/2}$가 존재한다. 이제 행렬 $A^{-1/2} B A^{-1/2}$은 양의 정부호 행렬 (특히, 대칭행렬) 이므로, 적당한 직교행렬(orthogonal matrix) $U$가 존재하여 $A^{-1/2} B A^{-1/2} = U D U^{\T}$와 같이 대각화 할 수 있다. 이제 $X = A^{1/2}U$로 정의하자. 그러면 간단한 계산을 통해서 $A = X X^{\T}$, $B = X D X^{\T}$를 얻는다. 즉, 하나의 행렬 $X$에 의하여 $A$는 단위행렬 $I$와, $B$는 (양의 정부호) 대각행렬 $D$와 합동이 된다. 한편, $I$와 $D$의 기하평균은 자연스럽게 $D^{1/2}$로 정의하면 되므로, 합동불변성을 이용하면 임의의 $A,\, B > 0$에 대하여 기하평균을 정의할 수 있음을 알 수 있다.

$ $

두 행렬의 기하평균(geometric mean)

주어진 두 $n \times n$ 양의 정부호 행렬 $A,\, B$에 대하여, $A,\, B$의 기하평균이 조건 (1)(6)을 동시에 만족한다면, 이는 다음과 같이 유일하게 존함을 보일 수 있다.(3)

\[ \begin{align*} G(A,\, B) &= A^{1/2} G(I,\, A^{-1/2} B A^{-1/2}) A^{1/2} \\[5px] &= A^{1/2} (A^{-1/2} B A^{-1/2})^{1/2} A^{1/2} \end{align*} \]

이제 위와 같이 정의된 기하평균이 나머지 조건 (2)~(5) 또한 만족함을 하나씩 확인할 것이다. 그 전에 행렬의 기하평균을 정의하는 동치 명제에 대하여 알아보자.(4)

$ $

정의. 두 행렬의 기하평균(geometric mean)

$A,\, B$가 $n \times n$ 양의 정부호 행렬이라 하자. 이 때 두 행렬 $A,\, B$의 기하평균 $G(A,\,B)$를 다음 동치명제 중 하나로 정의한다.(5)

  1. $G(A,\, B) = A^{1/2} (A^{-1/2} B A^{-1/2})^{1/2} A^{1/2}$
  2. $G(A,\, B)$는 리카티 방정식(Riccati equation) $XA^{-1}X = B$를 만족하는 유일한 양의 정부호 해이다.

$ $

증명. 편의상 $G := G(A,\, B)$로 나타내기로 하자. 우선 간단한 계산을 통해 $G$가 리카티 방정식의 해가 됨을 확인할 수 있으므로, 해의 유일성만 보이면 충분하다. 이를 위해 두 양의 정부호 행렬 $X,\, Y$가 리카티 방정식을 만족하는 해라 가정하자. 그러면 $XA^{-1}X = YA^{-1}Y$를 얻는다. 이 식의 양변에 $A^{-1/2}$를 좌우로 곱해주면,

\[ A^{-1/2}XA^{-1}XA^{-1/2} = A^{-1/2}YA^{-1}YA^{-1/2} \quad \Rightarrow \quad (A^{-1/2}XA^{-1/2})^2 = (A^{-1/2}YA^{-1/2})^2 \]

여기서 $A^{-1}XA^{-1/2}$와 $A^{-1}YA^{-1/2}$ 모두 양의 정부호 행렬이므로 $A^{-1}XA^{-1/2} = A^{-1}YA^{-1/2}$를 얻는다. 이제 이 식의 양변에 $A^{1/2}$를 좌우로 곱해주면 $X = Y$를 얻는다. 즉, 리카티 방정식의 해는 유일하다.$ $

$ $

정리. 기하평균(geometric mean)의 성질

$n \times n$ 양의 정부호 행렬 $A,\, B$에 대하여, 기하평균 $G(A,\, B)$는 다음 성질을 만족한다.

  1. $G(A,\, B)$는 조건 (2)~(5)을 모두 만족한다.
  2. $G(A,\, B)^{-1} = G(A^{-1},\, B^{-1})$
  3. $\det(G(A,\, B)) = \sqrt{\det(A) \det(B)}$
  4. $A(A,\, B) \geq G(A,\, B) \geq H(A,\, B)$

$ $

증명. 편의상 $G = G(A,\, B)$로 나타내기로 하자.

$ $

(a) $G$의 대칭성과 단조성을 보이면 충분하다. 먼저 대칭성을 보이기 위해서 $H = G(B,\, A)$로 정의하자. 그러면 $G,\, H$는 각각 리카티 방정식 $XA^{-1}X = B$와 $XB^{-1}X = A$를 만족하는 양의 정부호 해이다. 이제

\[ XB^{-1}X = A \quad \Leftrightarrow \quad X^{-1}BX^{-1} = A^{-1} \quad \Leftrightarrow \quad XA^{-1}X = B \]

이므로 $G,\, H$는 모두 동일한 리카티 방정식의 해임을 알 수 있다. 한편 리카티 방정식의 (양의 정부호) 해는 유일하므로 $G = H$, 즉, $G(A,\, B) = G(B,\, A)$를 얻는다.

이제 $G$의 단조성을 보이자. 이때 $G$의 대칭성이 성립하므로, $B' \geq B$일 때 $G(A,\, B') \geq G(A,\, B)$임을 보이면 충분하다.

$ $

(b), (c) $G$의 정의 (1)을 이용하면 간단히 증명할 수 있다.

$ $

(d) $A,\, B$가 양의 정부호 행렬이므로, $A = XX^{\T}$, $B = XDX^{\T}$를 만족하는 적당한 행렬 $X$가 존재한다. 한편, $I - 2D^{1/2} + D = (I - D^{1/2})^2 \geq 0$이 성립하므로

\[ G(I,\, D) = D^{1/2} \leq \frac{I + D}{2} \]

임을 알 수 있다. 이제 $G$의 합동불변성에 의해

\[ \begin{align*} G = G(A,\, B) &= G(XX^{\T},\, XDX^{\T}) = XG(I,\, D)X^{\T} \\[5px] &\leq X \left( \frac{I + D}{2} \right)X^{\T} = \frac{XX^{\T} + XDX^{\T}}{2} = \frac{A + B}{2} \end{align*} \]

즉, $G(A,\, B) \leq A(A,\, B)$가 성립한다. 한편 $H(A,\, B)^{-1} = A(A^{-1},\, B^{-1}) \geq G(A^{-1},\, B^{-1})$이므로 양변에 역행렬을 취하고 성질 (b)를 이용하면, $H(A,\, B) \leq G(A^{-1},\, B^{-1})^{-1} = G(A,\, B)$를 얻는다.$ $

$ $

  1. 두 정사각행렬 $A,\,B$가 $AB = BA$를 만족할 때, $A$와 $B$가 교환(commute) 된다고 한다.
  2. 아래 성질들 중, 일관성과 합동불변성을 이용하면 임의의 $A > 0$에 대하여 $G(A,\, A) = A$임을 보일 수 있다. 또한 이 사실과 단조성을 이용하여, 유계성을 보일 수 있다. 마지막으로 동차성은 합동불변성에서 $X = \sqrt{t}I$인 특수한 경우이다.
  3. $G(A,\, B)$의 정의는 언뜻 필요 이상으로 복잡해 보이지만, $A,\, B$가 교환되는 경우, 즉, $AB = BA$가 성립하는 경우, $G(A,\, B) = A^{1/2}B^{1/2}$로 간단히 정리되어 기하평균에 대한 우리의 직관과 맞아 떨어짐을 알 수 있다.
  4. 이 외에도 $G(A,\, B)$를 정의하는 여러가지 동치명제들이 존재한다. 그 중에서 가장 대표적인 것으로는

    \[ G(A,\, B) = \max \left\{ X \in \operatorname{Sym}(n,\, \R) : \left[ \begin{smallmatrix} A & X \\[5px] X & B \end{smallmatrix} \right] \geq 0 \right\} \]

    가 있다. (단, $\operatorname{Sym}(n,\, \R)$는 $n \times n$ 대칭행렬들의 집합이다.)

  5. 일반적으로 행렬 $A,\, B$의 기하평균은 $A \mathbf{\#} B$로 나타내지만, 이 글에서는 두 실수 $a,\,b$의 기하평균 표기법과의 통일성을 위해 $G(A,\, B)$로 나타내기로 한다.