티스토리 뷰

활성화 함수(Activation Function)는 인공지능, 특히 신경망에서 입력 신호를 비선형 변환하여 다음 계층으로 전달하는 역할을 한다. 이를 통해 인공지능 모델이 복잡한 비선형 관계를 학습할 수 있게 한다.
활성화 함수는 신경망의 성능과 학습 능력에 큰 영향을 미치므로, 각각의 활성화 함수의 특징을 이해할 필요가 있겠다.

 

[활성화 함수 종류]

  • 계단 함수(Step Function)
  • 시그모이드 함수(Sigmoid Function)
  • 하이퍼볼릭 탄젠트 함수(Tanh Function)
  • ReLU(Rectified Linear Unit) 함수
  • Leaky Relu 함수
  • 소프트 맥스 함수(Softmax Function)
  • GELU(Gaussian Error Linear Unit) 함수

 

[계단 함수(Step Function)]

 

  • 의의 및 의미:
    • 입력이 특정 임계값을 초과하면 1을 출력, 그렇지 않으면 0을 출력하는 함수.
    • 초기 퍼셉트론 모델에서 사용됨.
  • 특징:
    • 출력이 이진값(0 또는 1)으로 단순함.
    • 비선형 특성이 있으나, 기울기 정보가 제공되지 않아 **역전파(Backpropagation)**에서 사용이 어렵다.
  • 활용 방법:
    • 현재는 거의 사용되지 않으며, 대신 다른 활성화 함수로 대체됨.

 

계단 함수

[시그모이드 함수(Sigmoid Function)]

 

  • 의의 및 의미:
    • 입력 값을 [0, 1] 사이로 변환하여 확률적 해석이 가능.
    • 초기 신경망에서 널리 사용되었던 활성화 함수.
  • 특징:
    • 출력 범위: (0, 1).
    • 장점: 출력값이 확률처럼 해석 가능.
    • 단점:
      1. 기울기 소실 문제: 입력 값이 크거나 작을 경우, 기울기가 매우 작아져 학습이 느려짐.
      2. 계산 비용이 비싸다.
  • 활용 방법:
    • 로지스틱 회귀나 출력이 확률 값이어야 하는 문제에서 사용.
    • 현재는 숨겨진 계층에서는 거의 사용되지 않음.

 

시그모이드 함수

[하이퍼볼릭 탄젠트 함수(Tanh Function)]

 

  • 의의 및 의미:
    • 시그모이드의 변형으로, 값을 [-1, 1]로 정규화하여 입력의 중심을 0으로 이동.
  • 특징:
    • 출력 범위: (-1, 1).
    • 장점:
      1. 출력값이 음수 및 양수를 모두 포함하므로 시그모이드보다 학습이 더 빠름.
      2. 데이터의 평균을 0으로 중심화 가능.
    • 단점:
      • 여전히 기울기 소실 문제가 발생.
  • 활용 방법:
    • 순환신경망(RNN) 등에서 사용되었으나, ReLU로 대체되는 경우가 많음.

 

하이퍼볼릭 탄젠트 함수

 

[ReLU(Rectified Linear Unit) 함수]

 

  • 의의 및 의미:
    • 현재 딥러닝 모델에서 가장 널리 사용되는 활성화 함수로, 간단하면서도 성능이 우수.
  • 특징:
    • 출력 범위: [0, ∞).
    • 장점:
      1. 계산이 간단하고 빠름.
      2. 기울기 소실 문제가 줄어듦.
    • 단점:
      1. 죽은 ReLU 문제: 입력이 음수일 경우 기울기가 0이 되어 뉴런이 비활성화될 수 있음.
  • 활용 방법:
    • CNN, RNN 등 대부분의 딥러닝 모델에서 기본 활성화 함수로 사용.

 

ReLU 함수

[Leaky Relu 함수]

 

  • 의의 및 의미:
    • ReLU의 변형으로, 죽은 ReLU 문제를 완화.
  • 특징:
    • 출력 범위: (-∞, ∞).
    • 음수 영역에서도 작은 기울기를 제공.
  • 활용 방법:
    • 죽은 ReLU 문제를 피하고자 일부 네트워크에서 사용.

 

Leaky Relu 함수, 여기서 α 는 작은 양수

[소프트 맥스 함수(Softmax Function)]

 

  • 의의 및 의미:
    • 다중 클래스 분류 문제에서 출력층에 사용.
    • 입력값을 확률 분포로 변환.
  • 특징:
    • 출력 범위: [0, 1].
    • 모든 출력의 합이 1로 정규화.
  • 활용 방법:
    • 다중 클래스 분류 모델에서 출력층에 사용.

 

Softmax 함수

[GELU(Gaussian Error Linear Unit) 함수]

 

  • 의의 및 의미:
    • ReLU와 비슷하지만 Gaussian 분포를 적용하여 더 매끄러운 비선형성을 제공.
  • 특징:
    • 최신 Transformer 모델(BERT 등)에서 사용.
  • 활용 방법:
    • NLP와 같은 고차원 데이터 모델링에서 점점 더 많이 사용됨.

 

GELU 함수

[활성화 함수 선택 기준]

  • 출력 해석:
    • 확률: Sigmoid, Softmax.
    • 회귀 문제: ReLU, Tanh.
  • 계층 위치:
    • 은닉층: ReLU, Leaky ReLU.
    • 출력층: Sigmoid(이진 분류), Softmax(다중 분류), 없음(회귀).
  • 문제 특성:
    • 딥러닝: ReLU 기반 함수 선호.
    • 순환 신경망: Tanh, Sigmoid.

 

 

반응형