![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FO8KBe%2FbtrGELnV9Yw%2F7ue7FUwMkck7Q4KfqGe9qk%2Fimg.png)
[2.1.] Setting Up your Optimization Problem(2)
2022. 7. 6. 20:44
인공지능/DLS
Numerical Approximation of Gradients gradient checking [Checking your derivative computation] $f(\theta) = \theta^{3}$ $\theta = 1$, $\theta + \epsilon$, $\theta - \epsilon $ 이때 $\epsilon = 0.01$ (매우 작은 값) $\theta$ ~ $\theta + \epsilon$ 의 삼각형을 구하는 것보다, $\theta - \epsilon$ ~ $\theta + \epsilon$의 삼각형을 구하는 것이 더 낫다 큰 삼각형 안의 작은 삼각형 두 개를 고려하여, one sided difference가 아닌 "two sided difference"를 구하게 되는 것이..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcrarnP%2FbtrGtKpgXIF%2FI5wHz9z2pBzL6xF9kUjaS1%2Fimg.png)
[2.1.] Setting Up your Optimization Problem(1)
2022. 7. 4. 21:32
인공지능/DLS
Normalizing Inputs 1) substract mean $$\mu = \frac{1}{m} \sum_{i=1}^{m} x^{(i)}$$ $$x := x - \mu$$ 평균이 $0$이 되도록 training set 을 이동시킴 2) normalize variances 위 그래프에서 보면 $x_{2}$에 비해 $x_{1}$가 variance가 더 큼 $$\sigma^{2} = \frac{1}{m} \sum_{i=1}^{m} x^{(i)} \star \star 2$$ - $\star \star 2$ : element-wise squaring - $\sigma^{2}$ : a vector with the variances of each of the features (평균을 제외한 상태이므로) $$ x..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FHK1TX%2FbtrGqJpgCbv%2Fdbsk6gbs4pJf85iPZ1nOh0%2Fimg.png)
[2.1.] Regularizing your Neural Network
2022. 7. 3. 22:10
인공지능/DLS
Regularization overfitting, high variance problem -> regularization logistic regression 에 regularization 적용하기 $$\min_{w,b}J(w,b)$$ $$w \in R^{n_{x}},\ b \in R$$ $$J(w, b) = \frac{1}{m}\sum_{i=1}^{m} L({\hat{y}}^{(i)},y^{(i)})$$ 가장 흔히 쓰이는 $L_{2}$ regularization : $$J(w, b) = \frac{1}{m}\sum_{i=1}^{m} L({\hat{y}}^{(i)},y^{(i)}) + \frac{\lambda}{2m} {\| w \|}_{2}^{2}$$ $${\| w \|}_{2}^{2} = \sum_{j..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F7BTxO%2FbtrGmn1Lxv2%2F3A2idj1psbVkP88mCiNHuk%2Fimg.png)
[2.1.] Setting up your Machine Learning Application
2022. 7. 3. 21:48
인공지능/DLS
Train / Dev / Test sets [Applied ML is a highly iterative process] 다양한 hyperparameters : layer 개수, hidden unit 개수, learning rate, activation functions --> 처음부터 가장 적절한 값을 찾는 것은 어려움 --> 따라서 iterative 한 과정이 됨 한 도메인의 application 직관이 꼭 다른 domain에 그대로 이어지지 않기도 함 처음부터 하이퍼파라미터의 베스트 초이스를 찾기는 불가능 얼마나 "효율적으로" 사이클을 돌 것인지 [Train/dev/test sets] *cross-validation set = dev set - training set 으로 계속 학습 - dev set..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fei0mQi%2FbtrGpEVZoCk%2FGsdSAg2yiDIbABJ5R7Lf0K%2Fimg.png)
강좌1 정리 노트
2022. 7. 3. 21:17
인공지능/DLS
[1.4.] Deep Neural Networks 부분 추가 예정 [1.4.] Deep Neural Networks Deep L-layer Neural Network [what is a deep neural network?] - logistic regression 은 매우 'shallow model' 이다 - layer 개수 셀 때 input layer 는 포함하지 않음 [notation] - $L = 4$ (레이어 개수.. woo-niverse.tistory.com 완벽하게 이해하려고 노력하자
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FlETY2%2FbtrGfPdQAQQ%2FU6rfS4OGLwwZai8pH0jud1%2Fimg.png)
[1.4.] Deep Neural Networks
2022. 7. 2. 00:10
인공지능/DLS
Deep L-layer Neural Network [what is a deep neural network?] - logistic regression 은 매우 'shallow model' 이다 - layer 개수 셀 때 input layer 는 포함하지 않음 [notation] - $L = 4$ (레이어 개수) - $n^{[l]}$ (레이어 $l$에 있는 unit 개수) - $n^{[1]} = 5$, $n^{[2]} = 5$, $n^{[3]} = 3$, $n^{[4]} = n^{[L]} = 1$ - $n^{[0]} = n_{x} = 3$ - $a^{[l]} = g^{[l]}(z^{[l]})$ (레이어 $l$에 있는 activations) - $W^{[l]}$ = weights for $z[l]$ - i..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FCrn65%2FbtrGfondQk3%2FLEyOK8EJ5LwpZKg8GJ0xbK%2Fimg.png)
2022 구글 머신러닝 부트캠프 1주차 이야기
2022. 7. 1. 20:08
진로/구글 머신러닝 부트캠프
지난주 목요일인가 금요일부터 강의를 듣기 시작해서 일주일이 지났다. 7월 4일이 강좌1 마감인데 아직 3주차를 끝내지 못했다. 상당히 초조하다. 하필이면 회사에서 푸쉬하는 시기와 겹쳐서 한 주 동안 무지하게 바빴다. (일주일 내내 야근을..;;) 출근 전에 공부하고서 야근.. 그리고 야근 후에도 공부. 아무리 부지런하게 움직여도 공부 시간이 충분히 확보되지 않아서 스트레스를 받았다. 앞으로도 일과 병행할 수 있을지 고민이 된다. 스터디카페를 다니기 시작했다. 확실히 동기부여가 되는 것 같았다. 30분이라도 짬이 나면 공부를 하러 갈 수 있으니까! 노트북을 써도 되는 카페존에서 일하고 있지만 노트북을 두드리는 게 약간 눈치가 보인다. 공부는 나름 잘 되어가고 있는 것 같다. 용어나 기본적인 원리를 모르는 ..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FJPSVM%2FbtrFYwMcRRn%2FrpQs0Lbb4f5aKlixqnFfU0%2Fimg.png)
[1.3.] Shallow Neural Networks(2)
2022. 6. 27. 09:34
인공지능/DLS
Activation Functions sigmoid 함수가 아닌 다른 것으로 선택할 수 있음 시그모이드 함수 $\sigma(z^{[i]})$가 아닌 $g(z^{[i]})$를 사용할 수 있음 - sigmoid 함수 $a = \frac{1}{1+e^{-z}}$ : 0 ~ 1 - tahn 함수 $a = tanh(z) = \frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$ : -1 ~ 1 - tanh 함수는 시그모이드 함수를 shift 한 거 - 시그모이드 함수보다 나음 (데이터의 centre (평균)를 $0.5$가 아닌 $0$으로 잡게 되기 때문에 학습에 더 용이) - 마지막 레이어 제외하고는 시그모이드 거의 쓰지 않음 : 마지막 레이어의 출력은 이진 분류에서 0~1 사이가 되기 때문 - 레이어마다..