[2.2.] Optimization Algorithms(2)
2022. 7. 12. 00:37
인공지능/DLS
Bias Correction in Exponentially Weighted Averages exponentially weighted average 를 조금 더 정확하게 계산할 수 있도록 해주는 bias correction $$v_{t} = \beta v_{t-1} + (1-\beta)\theta_{t}$$ $\beta$가 $0.98$일 때, 사실은 왼쪽이 아닌 오른쪽의 보라색 그래프를 얻게 된다 보라색 그래프는 시작할 때 값이 낮음 --> 이걸 고쳐보자 $$v_{1} = 0.98v_{0} + 0.02\theta_{1}$$ 처음 $v_{0}$을 $0$으로 initialize 하기 때문에, $v_{1}$을 구할 때 사실상 $0.02\theta_{1}$ 뿐임 첫날에 대해서는 $0.02$가 곱해진 훨씬 낮은 ..
[2.2.] Optimization Algorithms(1)
2022. 7. 11. 23:24
인공지능/DLS
Mini-batch Gradient Descent fast optimization algorithm $$X = [x^{(1)}, x^{(2)}, x^{(3)}, \ldots, x^{(m)}]$$ $$Y = [y^{(1)}, y^{(2)}, y^{(3)}, \ldots, y^{(m)}]$$ - $X$는 $(n_{x}, m)$, $Y$는 $(1, m)$ 차원 $m$이 너무 크면 vectorization 해도 시간이 많이 걸림 gradient descent를 전체 훈련셋에 실시하는 것 = gradient descent 한 스텝 하기 전에 전체 훈련셋을 처리해야 함 전체 훈련셋을 모두 처리하기 전에 gradient descent를 시작하게 하면 더 빨라진다 training set을 baby training se..
[2.1.] Setting Up your Optimization Problem(2)
2022. 7. 6. 20:44
인공지능/DLS
Numerical Approximation of Gradients gradient checking [Checking your derivative computation] $f(\theta) = \theta^{3}$ $\theta = 1$, $\theta + \epsilon$, $\theta - \epsilon $ 이때 $\epsilon = 0.01$ (매우 작은 값) $\theta$ ~ $\theta + \epsilon$ 의 삼각형을 구하는 것보다, $\theta - \epsilon$ ~ $\theta + \epsilon$의 삼각형을 구하는 것이 더 낫다 큰 삼각형 안의 작은 삼각형 두 개를 고려하여, one sided difference가 아닌 "two sided difference"를 구하게 되는 것이..
[2.1.] Setting Up your Optimization Problem(1)
2022. 7. 4. 21:32
인공지능/DLS
Normalizing Inputs 1) substract mean $$\mu = \frac{1}{m} \sum_{i=1}^{m} x^{(i)}$$ $$x := x - \mu$$ 평균이 $0$이 되도록 training set 을 이동시킴 2) normalize variances 위 그래프에서 보면 $x_{2}$에 비해 $x_{1}$가 variance가 더 큼 $$\sigma^{2} = \frac{1}{m} \sum_{i=1}^{m} x^{(i)} \star \star 2$$ - $\star \star 2$ : element-wise squaring - $\sigma^{2}$ : a vector with the variances of each of the features (평균을 제외한 상태이므로) $$ x..
[2.1.] Regularizing your Neural Network
2022. 7. 3. 22:10
인공지능/DLS
Regularization overfitting, high variance problem -> regularization logistic regression 에 regularization 적용하기 $$\min_{w,b}J(w,b)$$ $$w \in R^{n_{x}},\ b \in R$$ $$J(w, b) = \frac{1}{m}\sum_{i=1}^{m} L({\hat{y}}^{(i)},y^{(i)})$$ 가장 흔히 쓰이는 $L_{2}$ regularization : $$J(w, b) = \frac{1}{m}\sum_{i=1}^{m} L({\hat{y}}^{(i)},y^{(i)}) + \frac{\lambda}{2m} {\| w \|}_{2}^{2}$$ $${\| w \|}_{2}^{2} = \sum_{j..
[2.1.] Setting up your Machine Learning Application
2022. 7. 3. 21:48
인공지능/DLS
Train / Dev / Test sets [Applied ML is a highly iterative process] 다양한 hyperparameters : layer 개수, hidden unit 개수, learning rate, activation functions --> 처음부터 가장 적절한 값을 찾는 것은 어려움 --> 따라서 iterative 한 과정이 됨 한 도메인의 application 직관이 꼭 다른 domain에 그대로 이어지지 않기도 함 처음부터 하이퍼파라미터의 베스트 초이스를 찾기는 불가능 얼마나 "효율적으로" 사이클을 돌 것인지 [Train/dev/test sets] *cross-validation set = dev set - training set 으로 계속 학습 - dev set..
강좌1 정리 노트
2022. 7. 3. 21:17
인공지능/DLS
[1.4.] Deep Neural Networks 부분 추가 예정 [1.4.] Deep Neural Networks Deep L-layer Neural Network [what is a deep neural network?] - logistic regression 은 매우 'shallow model' 이다 - layer 개수 셀 때 input layer 는 포함하지 않음 [notation] - $L = 4$ (레이어 개수.. woo-niverse.tistory.com 완벽하게 이해하려고 노력하자
[1.4.] Deep Neural Networks
2022. 7. 2. 00:10
인공지능/DLS
Deep L-layer Neural Network [what is a deep neural network?] - logistic regression 은 매우 'shallow model' 이다 - layer 개수 셀 때 input layer 는 포함하지 않음 [notation] - $L = 4$ (레이어 개수) - $n^{[l]}$ (레이어 $l$에 있는 unit 개수) - $n^{[1]} = 5$, $n^{[2]} = 5$, $n^{[3]} = 3$, $n^{[4]} = n^{[L]} = 1$ - $n^{[0]} = n_{x} = 3$ - $a^{[l]} = g^{[l]}(z^{[l]})$ (레이어 $l$에 있는 activations) - $W^{[l]}$ = weights for $z[l]$ - i..