- Published on
Approximation by Superposition of a Sigmoidal Function
- G. Cybenko
- 1989
- 논문 링크
Summary
- Universal Approximation Theorem은 하나의 뉴럴 네트워크 레이어와 비선형 활성 함수만으로 가능한 모든 연속 함수를 근사할 수 있다는 것을 수학적으로 보이고 있다.
- 이때 비선형 활성 함수 는 Continuous Discriminatory Function 이어야 한다. 대표적으로 Sigmodal한 특성을 가지는 함수들이 있다.
Artificial Neural Network
어떤 차원의 입력 값 에 대한 **인공 신경망(Artificial Neural Network)**은 다음 수식과 같다.
하나의 뉴럴 네트워크 레이어를 통과한다는 것은 위의 수식에서 확인할 수 있듯 Input 와 Weight 의 내적에 Bias 를 더하고 그것을 활성 함수에 통과시키는 작업을 해당 레이어 출력의 차원 수 만큼 반복하는 것이 된다. 이러한 점에서 인공신경망은 뉴럴 네트워크 레이어와 비선형 활성 함수(Non-linear Activation Function)들이 중첩되어 있는 것이라고 할 수 있다.
여기서 당연히 다음과 같은 의문이 들 수 있다.
- 뉴럴 네트워크 레이어와 비선형 함수를 중첩하는 것만으로도 원하는 출력 값을 얻을 수 있는가
- 원하는 네트워크 출력을 얻기 위해 뉴럴 네트워크 레이어와 비선형 활성 함수를 얼마나 쌓아야 하는가
논문에서는 **하나의 뉴럴 네트워크 레이어와 임의의 연속적인 시그모달 비선형 활성 함수(Arbitrary Continuous Sigmoidal Nonlinearity)**만으로도 충분히 원하는 출력 값을 얻을 수 있음을 보여준다. 이때 충분하다는 것은 정확하게 표현하는 것이 아닌 근사(Approximation)에 만족한다는 것으로 이해할 수 있다.
Cybenko's theorem
차원의 Unit Cube 을 , 그리고 상에서 정의되는 연속 함수의 공간을 이라고 하자. 이때 우리의 목표는 다음과 같이 로 정의되는 하나의 뉴럴 네트워크 레이어와 시그모이드 활성 함수만으로 에 대해 dense 하다는 것을 보이는 것이다. 참고로 어떤 위상 공간 의 Subset 가 있다고 할 때, 의 모든 point 가 에 속하거나 의 극한점일 때 는 에 대해 dense 하다고 표현한다.
쉽게 말해 dense 하다는 것은 로 에서 정의될 수 있는 모든 Continuous Function을 커버할 수 있다는 것을 의미한다. Cybenko's theorem은 이것이 성립한다는 것에 관한 증명이다.
Definitions
구체적인 증명에 앞서 논문에서는 Disciminatory와 Sigmodal이 무엇인지 다음과 같이 정의한다.
Disciminatory
Unit Cube 에 대해 유한하고, 부호가 있는 Regular Borel Measure들의 집합을 이라고 하자. 어떤 Measure 가 있을 때 모든 과 에 대해 아래와 같은 공식을 만족하면 이 성립하는 경우를 두고 가 Discriminatory 하다고 한다.
Sigmoidal
가 Sigmoidal하다는 것은 다음과 같이 정의될 때를 의미한다.
Theorem\eqalign{ &\text{Let } \sigma \text{ be any continuous discriminatory function. Then finite sums of the form }\\ \\ &\qquad G(x) = \Sigma_{j=1}^N \alpha_j \sigma(y_j^T x + \theta_j) \\ \\ &\text{are dense in } C(I_n). \text{ In other words, given any } f \in C(I_n) \text{ and } \epsilon > 0, \text{ there is a sum, } \\ \\ & G(x), \text{of the above form, for which }\\ \\ &\qquad \lvert G(x) - f(x) \rvert < \epsilon \qquad \text{ for all } x \in I_n }
Theorem은 상에서 를 통해 표현할 수 있는 함수의 집합을 이라고 한다면, 의 closure가 에서 정의되는 전체 연속함수 집합 이 된다는 것으로도 이해할 수 있다. 여기서 Closure(폐포)란 주어진 위상공간의 부분집합을 포함하는 가장 작은 닫힌 집합을 의미하므로 의 부분집합인 의 Closure가 라면 로 전체 을 커버할 수 있다는 것을 의미한다.
Proof
Cybenko's theorem은 귀류법을 통해 증명이 이뤄진다. 따라서 증명은 의 closure가 전체 이 된다는 것을 부정하는 것으로 시작한다. 이를 위해 의 Closure를 의 부분집합인 로 가정한다.
증명에는 두 가지 부가적인 Theorem을 사용하게 되는데, 첫 번째는 Hahn-Banach Theorem으로, 에 있어 을 만족하는 Bounded Linear Functional 이 존재한다는 것을 알 수 있다. 두 번째로 사용되는 Theorem은 Riesz Representation Theorem이다. 이에 따르면 의 모든 원소 에 대해 이 다음과 같이 정의될 수 있다. 이때 는 Disciminatory의 정의에서 사용되는 어떤 Regular Borel Measure 이다.
여기서 모든 와 에 대해 는 의 원소이므로 다음이 성립힌다.
Theorem에서 를 Continuous Discriminatory Function으로 정의하였으므로 이 경우 Discriminatory의 정의에 따라 를 만족함을 알 수 있다. 이는 이 곧 이 된다는 것을 의미한다. 따라서 의 closure가 전체 이 되지 못한다는 명제는 틀렸다.
General Form of Artificial Neural Network
가 에 대해 dense 하기 때문에 가 Continuous Discriminatory Function 이기만 하면 위와 같이 일반적인 형태의 인공신경망 또한 에 대해 dense 하다고 할 수 있다.