Skip to content
This repository was archived by the owner on Sep 23, 2022. It is now read-only.

[히스] Gradient Vanishing 해결을 위한 ReLU 와 ResNet #52

Closed
Heeseok-Jeong opened this issue Feb 3, 2021 · 3 comments
Closed
Assignees
Labels

Comments

@Heeseok-Jeong
Copy link
Contributor

Heeseok-Jeong commented Feb 3, 2021

🙌 질문자


❓ 질문 내용

  1. tanh 나 시그모이드 함수를 쓰면 gradient vanishing 문제가 왜 생기나요?
  2. ReLU 로 gradient vanishing 가 해결된거 아닌가요? 왜 resnet 을 사용하나요?

@Heeseok-Jeong
Copy link
Contributor Author

Heeseok-Jeong commented Feb 3, 2021

  1. ReLU는 양수의 경우, y=x 꼴이라 계속 미분해도 값이 유지되는 반면, 저 두 활성함수는 미분을 계속하면 0에 가까워짐
  2. ReLU 로 어느정도 해소되지만, 레이어가 많은 (파라미터가 많은) 딥러닝은 애초에 학습이 잘 안됨 + 오버피팅 문제가 있음, 그래서 residual 을 사용해서 이를 해결함

-피어 세션-

@jjerry-k
Copy link

jjerry-k commented Feb 3, 2021

edwith에도 동일한 질문이 들어왔었네요!

https://www.edwith.org/bcaitech1/forum/48979

@Heeseok-Jeong
Copy link
Contributor Author

오 감사합니다 에듀위드 글 보고 이해됐습니다 :)

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
Projects
None yet
Development

No branches or pull requests

2 participants