[5.4.] Transformers
2022. 8. 14. 17:55
인공지능/DLS
Transfermer Network Intuition [Transformer Network Motivation] - 갈수록 복잡해진 모델 - 모두 sequential 모델 : input 문장을 한 단어/토큰씩 받아들임 - "as if each unit was like a bottleneck to the flow of information" - 예를 들어, 마지막 unit을 계산하기 위해서는 앞 unit들을 먼저 모두 계산해야 함 - transformer : 전체 sequence에 대한 계산을 병렬(in parallel)로 처리하게 됨 [Transfermor Network Intuition] - Attention + CNN - attention based representation과 CNN processi..
[5.3.] Speech Recognition - Audio Data
2022. 8. 13. 22:20
인공지능/DLS
Speech Recognition [Speech Recognition Problem] input $x$ : audio clip - air pressure against time output $y$ : transcript 전처리 : spectrogram 생성 (시간 x requencies x energies) [Attention model for speech recognition] [CTC cost for speech recognition] (connectionist temporal classification) - input과 output의 길이가 같은 RNN 신경망을 구성하낟 - speech recognition에서는 input time step 이 매우 커질 수 있는데, 초당 100 헤르츠짜리 음성 1..
[5.3.] Various Sequence To Sequence Architectures(2)
2022. 8. 13. 21:07
인공지능/DLS
Attention Model Intuition [The problem of long sequences] 아주 긴 프랑스어 문장이 주어졌다고 해보자 초록 : 전체 문장을 읽고 외워서 활성화값에 store 해라 보라 : 영어 문장을 생성해라 -> 인간이라면 이렇게 하지 않을 것. 문장을 지나며 part by part으로 번역함. 아주 긴 문장을 통쨰로 외우는 것은 아주 어려우므로. 그래서 위 같이 encoder-decoder 로 생긴 모델은 문장이 짧을 때 Bleu Score가 높지만, 문장이 길어질수록 스코어가 떨어짐 *문장이 너무 짧을 때도 해석하기 어려우므로 [Attention model intuition] "When you're trying to generate this output, what par..
[5.3.] Various Sequence To Sequence Architectures(1)
2022. 8. 11. 18:10
인공지능/DLS
Basic Models [Sequence to sequence model] sequence $x$를 입력하면 sequence $y$를 출력하는 신경망을 어떻게 구성하면 될까? RNN(혹은 GRU, LSTM)으로 이루어진 encoder 파트 - input sentence를 represent 하는 벡터를 출력함 (파란색 펜) 입력된 벡터로 sequcen $y$를 출력하는 decoder 파트 이러한 아키텍처는 "image captioning"에서도 효과적 사전학습된 AlexNet 사용 - 마지막 softmax 레이어를 제외하면 input image 를 4096차원의 feature vector로 encoding한 셈이 됨 이 feautre vector를 RNN에 입력하여 한번에 한 단어씩 캡션을 생성하게 함 P..
[5.2.] Applications Using Word Embeddings
2022. 8. 11. 15:47
인공지능/DLS
Sentiment Classification sentiment classification에서 겪을 수 있는 문제: 대량의 라벨링된 training set 이 없음 - 10000~100000 단어 정도면 무난 지금부터 두 개의 알고리즘 살펴볼 것임 [Simeple sentiment classification model] - 나의 vocab상 인덱스에 따라서 one-hot vector 생성 - 엄청 큰 데이터셋으로 학습된 E 를 활용하여 embeddings 추출 - 300차원의 vector - 이 벡터들을 모두 더하거나 평균을 내서, softmax classifier에 입력한다 - 별점 1~5점으로 총 다섯개의 possible outcome을 출력한다 (문제점) - 단어 순서를 무시한다 (위 이미지의 마지막..
[5.2.] Learning Word Embeddings: Word2vec & GloVe
2022. 8. 9. 23:01
인공지능/DLS
Learning Word Embeddings [Neural language model] $o_{index} \cdot E = e_{index}$ 형식으로 모든 단어에 대해서 300차원 embedding vector를 구함 입력 차원이 1800 (300차원 x 6개 단어) 인 신경망 레이어에 입력, softmax 통해 "juice" 출력하는 모델 학습 혹은 'fixed historicla window' 통해서 빈 칸 앞 네 개의 단어(이 단어의 개수 또한 파라미터)만 보도록 설정할 수 있음 - 아무리 긴 문장 입력하더라도 입력 길이가 정해져 있으므로 ok 이 경우 입력 차원은 1200 (300차원 x 4개 단어) 여기까지 보았을 때 파라미터는 - $E$ : 물론 모든 단어에 대해 동일한 행렬 $E$를 적용..
[5.2.] Introduction to Word Embeddings
2022. 8. 7. 19:51
인공지능/DLS
Word Representation 지금까지는 Vocab 사용해서 (위 예시의 경우 사이즈가 10,000) one-hot vector로 단어를 표현했음 예를 들어 Orange가 vocal에서 6257번째 단어라면 $O_{6257}$로 표기 이러한 representation의 단점 - 이러한 예시에서 orange와 apple이 가까운 관계에 있다는 것을 학습하지 못함 --> 두 개의 다른 one-hot vector의 내적(inner product)은 $0$이기 떄문 one-hot representation 대신에 "featurized representation"을 사용해보자! 그 외에 size, cost, alive, verb .. 등등 다양한 feature 생각해볼 수 있음 예를 들어 300개의 feat..
[5.1.] Recurrent Neural Networks(3)
2022. 8. 6. 23:17
인공지능/DLS
Vanishing Gradients with RNNs "The cat, which already ate ... , was full" "The cats, which already ate ..., were full" -> long term dependency 를 가지는 경우 깊은 NN 모델이 vanishing gradient 문제를 겪었듯이, basic RNN 아키텍처 또한 backprop시 앞의 time step의 영향을 추적하기 어려움 -> 많은 "local influences"를 가지게 됨 - 어떤 $\hat{y}$은 주로 그 근처에 있는 $\hat{y}$들에 영향을 받게 됨. 후반에 있는 $\hat{y}$들은 초반의 $\hat{y}$의 영향을 받기 어려움. ("This is because whatev..