![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbRVaqa%2FbtrG8IxAd64%2FE9JXHMgk2IKeDid4mViXl1%2Fimg.png)
[2.3.] Hyperparameter Tuning
2022. 7. 12. 21:08
인공지능/DLS
Tuning process - learning rate $\alpha$ 주>초 순으로 중요도) 그리드 모양으로 펼쳐진 점들을 따라 하이퍼파라미터를 찾곤 했음 하이퍼파라미터 개수가 상대적으로 적을 때는 괜찮음 그러나 만약 하이퍼파라미터1이 중요한 learning rate 이고 하이퍼파라미터2가 상대적으로 덜 중요한 $\epsilon$이라고 해보자 하이퍼파라미터2는 굳이 해보지 않아도 뻔한데, 그리드 형식을 따라간다면 동일한 하이퍼파라미터2에 여러번 테스트를 시행하게 됨 따라서 그 대신에 random 포인트를 따라가보기로 함 어떤 하이퍼파라미터가 제일 좋을지 알 수 없기 때문에 "Coarse to fine" sampling 좌측 하단쪽의 포인트들이 괜찮은 결과를 나온다면 그 부근을 확대하여 그 지역에서 밀도..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FczomCF%2FbtrG6dJWD2j%2FsLJD3wRsnIuHvUi9NtkDhK%2Fimg.png)
[2.2.] Optimization Algorithms(2)
2022. 7. 12. 00:37
인공지능/DLS
Bias Correction in Exponentially Weighted Averages exponentially weighted average 를 조금 더 정확하게 계산할 수 있도록 해주는 bias correction $$v_{t} = \beta v_{t-1} + (1-\beta)\theta_{t}$$ $\beta$가 $0.98$일 때, 사실은 왼쪽이 아닌 오른쪽의 보라색 그래프를 얻게 된다 보라색 그래프는 시작할 때 값이 낮음 --> 이걸 고쳐보자 $$v_{1} = 0.98v_{0} + 0.02\theta_{1}$$ 처음 $v_{0}$을 $0$으로 initialize 하기 때문에, $v_{1}$을 구할 때 사실상 $0.02\theta_{1}$ 뿐임 첫날에 대해서는 $0.02$가 곱해진 훨씬 낮은 ..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcYXlDe%2FbtrG0CdZGdV%2F3rRT3kgk1fBrUSvTxEHNzk%2Fimg.png)
[2.2.] Optimization Algorithms(1)
2022. 7. 11. 23:24
인공지능/DLS
Mini-batch Gradient Descent fast optimization algorithm $$X = [x^{(1)}, x^{(2)}, x^{(3)}, \ldots, x^{(m)}]$$ $$Y = [y^{(1)}, y^{(2)}, y^{(3)}, \ldots, y^{(m)}]$$ - $X$는 $(n_{x}, m)$, $Y$는 $(1, m)$ 차원 $m$이 너무 크면 vectorization 해도 시간이 많이 걸림 gradient descent를 전체 훈련셋에 실시하는 것 = gradient descent 한 스텝 하기 전에 전체 훈련셋을 처리해야 함 전체 훈련셋을 모두 처리하기 전에 gradient descent를 시작하게 하면 더 빨라진다 training set을 baby training se..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FmzIAo%2FbtrG2s9OtxK%2FBnFpdn9hMG4LFBZAGqPkRk%2Fimg.jpg)
2022 구글 머신러닝 부트캠프 2주차 이야기
2022. 7. 11. 23:17
진로/구글 머신러닝 부트캠프
무려 2주차만에 위기가 찾아왔다.. 이번주 금요일이 마감인데 다 할 수 있을까? 내일이랑 내일 모레는 거의 밤 새워야 할 듯. 고백하자면 공부를 별로 못했다. 취소하기 어려운 약속이 연달아 있었다. 주말에는 여행 일정이 있었다. 강원도로 가는 고속버스에서도 강의를 들었으나 겨우 세 강 들었나... 부트캠프 중도하차는 전혀 생각해본 적 없는 옵션이었는데, 완주에 실패하는 상상을 나도 모르게 해버렸다. 소름이 끼치고 무서웠다. 퇴사는 무른 상태다. 리스크가 너무 크다. 물론 매일매일 마음이 흔들린다. 진도 따라잡느라 급급하다. 하나하나 이해하려고 들었던 1주차와 느낌이 너무 다르다. 쎄하게 다르다. 최대한 시간을 확보해보자.
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FO8KBe%2FbtrGELnV9Yw%2F7ue7FUwMkck7Q4KfqGe9qk%2Fimg.png)
[2.1.] Setting Up your Optimization Problem(2)
2022. 7. 6. 20:44
인공지능/DLS
Numerical Approximation of Gradients gradient checking [Checking your derivative computation] $f(\theta) = \theta^{3}$ $\theta = 1$, $\theta + \epsilon$, $\theta - \epsilon $ 이때 $\epsilon = 0.01$ (매우 작은 값) $\theta$ ~ $\theta + \epsilon$ 의 삼각형을 구하는 것보다, $\theta - \epsilon$ ~ $\theta + \epsilon$의 삼각형을 구하는 것이 더 낫다 큰 삼각형 안의 작은 삼각형 두 개를 고려하여, one sided difference가 아닌 "two sided difference"를 구하게 되는 것이..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcrarnP%2FbtrGtKpgXIF%2FI5wHz9z2pBzL6xF9kUjaS1%2Fimg.png)
[2.1.] Setting Up your Optimization Problem(1)
2022. 7. 4. 21:32
인공지능/DLS
Normalizing Inputs 1) substract mean $$\mu = \frac{1}{m} \sum_{i=1}^{m} x^{(i)}$$ $$x := x - \mu$$ 평균이 $0$이 되도록 training set 을 이동시킴 2) normalize variances 위 그래프에서 보면 $x_{2}$에 비해 $x_{1}$가 variance가 더 큼 $$\sigma^{2} = \frac{1}{m} \sum_{i=1}^{m} x^{(i)} \star \star 2$$ - $\star \star 2$ : element-wise squaring - $\sigma^{2}$ : a vector with the variances of each of the features (평균을 제외한 상태이므로) $$ x..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FHK1TX%2FbtrGqJpgCbv%2Fdbsk6gbs4pJf85iPZ1nOh0%2Fimg.png)
[2.1.] Regularizing your Neural Network
2022. 7. 3. 22:10
인공지능/DLS
Regularization overfitting, high variance problem -> regularization logistic regression 에 regularization 적용하기 $$\min_{w,b}J(w,b)$$ $$w \in R^{n_{x}},\ b \in R$$ $$J(w, b) = \frac{1}{m}\sum_{i=1}^{m} L({\hat{y}}^{(i)},y^{(i)})$$ 가장 흔히 쓰이는 $L_{2}$ regularization : $$J(w, b) = \frac{1}{m}\sum_{i=1}^{m} L({\hat{y}}^{(i)},y^{(i)}) + \frac{\lambda}{2m} {\| w \|}_{2}^{2}$$ $${\| w \|}_{2}^{2} = \sum_{j..
![thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F7BTxO%2FbtrGmn1Lxv2%2F3A2idj1psbVkP88mCiNHuk%2Fimg.png)
[2.1.] Setting up your Machine Learning Application
2022. 7. 3. 21:48
인공지능/DLS
Train / Dev / Test sets [Applied ML is a highly iterative process] 다양한 hyperparameters : layer 개수, hidden unit 개수, learning rate, activation functions --> 처음부터 가장 적절한 값을 찾는 것은 어려움 --> 따라서 iterative 한 과정이 됨 한 도메인의 application 직관이 꼭 다른 domain에 그대로 이어지지 않기도 함 처음부터 하이퍼파라미터의 베스트 초이스를 찾기는 불가능 얼마나 "효율적으로" 사이클을 돌 것인지 [Train/dev/test sets] *cross-validation set = dev set - training set 으로 계속 학습 - dev set..