Published on

Approximation by Superposition of a Sigmoidal Function

Summary

  • Universal Approximation Theorem은 하나의 뉴럴 네트워크 레이어와 비선형 활성 함수만으로 가능한 모든 연속 함수를 근사할 수 있다는 것을 수학적으로 보이고 있다.
  • 이때 비선형 활성 함수 σ\sigmaContinuous Discriminatory Function 이어야 한다. 대표적으로 Sigmodal한 특성을 가지는 함수들이 있다.

Artificial Neural Network

어떤 nn차원의 입력 값 xRnx \in \mathcal R^n에 대한 **인공 신경망(Artificial Neural Network)**은 다음 수식과 같다.

Σj=1Nαjσ(yjTx+θj)\Sigma_{j=1}^N \alpha_j \sigma(y_j^T x + \theta_j)

하나의 뉴럴 네트워크 레이어를 통과한다는 것은 위의 수식에서 확인할 수 있듯 Input xx와 Weight yjRny_j \in \mathcal R^n의 내적에 Bias θj\theta_j를 더하고 그것을 활성 함수에 통과시키는 작업을 해당 레이어 출력의 차원 수 jj만큼 반복하는 것이 된다. 이러한 점에서 인공신경망은 뉴럴 네트워크 레이어와 비선형 활성 함수(Non-linear Activation Function)들이 중첩되어 있는 것이라고 할 수 있다.

여기서 당연히 다음과 같은 의문이 들 수 있다.

  • 뉴럴 네트워크 레이어와 비선형 함수를 중첩하는 것만으로도 원하는 출력 값을 얻을 수 있는가
  • 원하는 네트워크 출력을 얻기 위해 뉴럴 네트워크 레이어와 비선형 활성 함수를 얼마나 쌓아야 하는가

논문에서는 **하나의 뉴럴 네트워크 레이어와 임의의 연속적인 시그모달 비선형 활성 함수(Arbitrary Continuous Sigmoidal Nonlinearity)**만으로도 충분히 원하는 출력 값을 얻을 수 있음을 보여준다. 이때 충분하다는 것은 정확하게 표현하는 것이 아닌 근사(Approximation)에 만족한다는 것으로 이해할 수 있다.

Cybenko's theorem

nn차원의 Unit Cube [0,1]n[0,1]^nInI_n, 그리고 InI_n 상에서 정의되는 연속 함수의 공간을 C(In)C(I_n)이라고 하자. 이때 우리의 목표는 다음과 같이 G(x)G(x)로 정의되는 하나의 뉴럴 네트워크 레이어와 시그모이드 활성 함수만으로 C(In)C(I_n)에 대해 dense 하다는 것을 보이는 것이다. 참고로 어떤 위상 공간 XX의 Subset AA가 있다고 할 때, XX의 모든 point xxAA에 속하거나 AA의 극한점일 때 AAXX에 대해 dense 하다고 표현한다.

G(x)=Σj=1Nαjσ(yjTx+θj)G(x) = \Sigma_{j=1}^N \alpha_j \sigma(y_j^T x + \theta_j)

쉽게 말해 dense 하다는 것은 G(x)G(x)InI_n에서 정의될 수 있는 모든 Continuous Function을 커버할 수 있다는 것을 의미한다. Cybenko's theorem은 이것이 성립한다는 것에 관한 증명이다.

Definitions

구체적인 증명에 앞서 논문에서는 Disciminatory와 Sigmodal이 무엇인지 다음과 같이 정의한다.

Disciminatory

Unit Cube InI_n에 대해 유한하고, 부호가 있는 Regular Borel Measure들의 집합을 M(In)M(I_n)이라고 하자. 어떤 Measure μM(In)\mu \in M(I_n)가 있을 때 모든 yRny \in \mathcal R^nθR\theta \in \mathcal R에 대해 아래와 같은 공식을 만족하면 μ=0\mu = 0이 성립하는 경우를 두고 σ\sigmaDiscriminatory 하다고 한다.

Inσ(yTx+θ)dμ(x)=0\int_{I_n} \sigma(y^T x + \theta) d \mu (x) = 0

Sigmoidal

σ\sigmaSigmoidal하다는 것은 다음과 같이 정의될 때를 의미한다.

σ(t)\cases1 as t+\cr0 as t\sigma (t) \rightarrow \cases{ 1 \text{ as } t \rightarrow +\infty \cr 0 \text{ as } t \rightarrow -\infty }

Theorem

\eqalign{ &\text{Let } \sigma \text{ be any continuous discriminatory function. Then finite sums of the form }\\ \\ &\qquad G(x) = \Sigma_{j=1}^N \alpha_j \sigma(y_j^T x + \theta_j) \\ \\ &\text{are dense in } C(I_n). \text{ In other words, given any } f \in C(I_n) \text{ and } \epsilon > 0, \text{ there is a sum, } \\ \\ & G(x), \text{of the above form, for which }\\ \\ &\qquad \lvert G(x) - f(x) \rvert < \epsilon \qquad \text{ for all } x \in I_n }

Theorem은 InI_n상에서 G(x)G(x)를 통해 표현할 수 있는 함수의 집합을 SC(In)S \subset C(I_n)이라고 한다면, SS의 closure가 InI_n에서 정의되는 전체 연속함수 집합 C(In)C(I_n)이 된다는 것으로도 이해할 수 있다. 여기서 Closure(폐포)란 주어진 위상공간의 부분집합을 포함하는 가장 작은 닫힌 집합을 의미하므로 C(In)C(I_n)의 부분집합인 SS의 Closure가 C(In)C(I_n)라면 SS로 전체 C(In)C(I_n)을 커버할 수 있다는 것을 의미한다.

Proof

Cybenko's theorem은 귀류법을 통해 증명이 이뤄진다. 따라서 증명은 SS의 closure가 전체 C(In)C(I_n)이 된다는 것을 부정하는 것으로 시작한다. 이를 위해 SS의 Closure를 C(In)C(I_n)의 부분집합인 RR로 가정한다.

증명에는 두 가지 부가적인 Theorem을 사용하게 되는데, 첫 번째는 Hahn-Banach Theorem으로, C(In)C(I_n)에 있어 L(S)=L(R)=0, L0L(S) = L(R) = 0, \ L \neq 0을 만족하는 Bounded Linear Functional LL이 존재한다는 것을 알 수 있다. 두 번째로 사용되는 Theorem은 Riesz Representation Theorem이다. 이에 따르면 C(In)C(I_n)의 모든 원소 hh에 대해 LL이 다음과 같이 정의될 수 있다. 이때 μ\mu는 Disciminatory의 정의에서 사용되는 어떤 Regular Borel Measure 이다.

L(h)=Inh(x)dμ(x)L(h) = \int_{I_n} h(x) d \mu (x)

여기서 모든 yyθ\theta에 대해 σ(yTx+θ)\sigma(y^T x + \theta)RR의 원소이므로 다음이 성립힌다.

L(h)=Inσ(yTx+θ)dμ(x)=0L(h) = \int_{I_n} \sigma(y^T x + \theta) d \mu (x) = 0

Theorem에서 σ\sigma를 Continuous Discriminatory Function으로 정의하였으므로 이 경우 Discriminatory의 정의에 따라 μ=0\mu = 0를 만족함을 알 수 있다. 이는 RR이 곧 C(In)C(I_n)이 된다는 것을 의미한다. 따라서 SS의 closure가 전체 C(In)C(I_n)이 되지 못한다는 명제는 틀렸다.

General Form of Artificial Neural Network

G(x)=Σj=1Nαjσ(yjTx+θj)G(x) = \Sigma_{j=1}^N \alpha_j \sigma(y_j^T x + \theta_j)

σ(yTx+θ)\sigma(y^T x + \theta)C(In)C(I_n)에 대해 dense 하기 때문에 σ\sigma가 Continuous Discriminatory Function 이기만 하면 위와 같이 일반적인 형태의 인공신경망 G(x)G(x) 또한 C(In)C(I_n)에 대해 dense 하다고 할 수 있다.