ROMP 이해하기
2022. 8. 10. 15:54
인공지능/pose estimation
[논문] Monocular, One-stage, Regression of Multiple 3D People [초록] regression of multiple 3D people from a single RGB image (기존) multi-stage pipeline detection in bounding boxes independent regression of 3D body meshes (제안) ROMP : one-stage fashion for Multiple 3D people bounding box-free per-pixel representation in an end-to-end manner Body Center heatmap + Mesh Parameter map → 3D body mesh on th..
Impersonator++ 이해하기
2022. 8. 10. 15:45
인공지능/pose estimation
[논문] Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis [training & synthesis for motion imitation] 크게 세 단계로 이루어짐 style transfer, novel view 태스크를 수행할 때에는 Flow Composition만 새로 계산하게 됨 few-shot 방법론으로 입력 이미지당 personalized 된 모델을 학습 (a) Body Mesh Recovery : 입력 이미지에 대한 3D mesh 생성 (b) Flow Composition : Source ↔︎ Target 간 transformation flow를 계산하여 warped image 생성 (c) Liquid..
[5.2.] Learning Word Embeddings: Word2vec & GloVe
2022. 8. 9. 23:01
인공지능/DLS
Learning Word Embeddings [Neural language model] $o_{index} \cdot E = e_{index}$ 형식으로 모든 단어에 대해서 300차원 embedding vector를 구함 입력 차원이 1800 (300차원 x 6개 단어) 인 신경망 레이어에 입력, softmax 통해 "juice" 출력하는 모델 학습 혹은 'fixed historicla window' 통해서 빈 칸 앞 네 개의 단어(이 단어의 개수 또한 파라미터)만 보도록 설정할 수 있음 - 아무리 긴 문장 입력하더라도 입력 길이가 정해져 있으므로 ok 이 경우 입력 차원은 1200 (300차원 x 4개 단어) 여기까지 보았을 때 파라미터는 - $E$ : 물론 모든 단어에 대해 동일한 행렬 $E$를 적용..
[5.2.] Introduction to Word Embeddings
2022. 8. 7. 19:51
인공지능/DLS
Word Representation 지금까지는 Vocab 사용해서 (위 예시의 경우 사이즈가 10,000) one-hot vector로 단어를 표현했음 예를 들어 Orange가 vocal에서 6257번째 단어라면 $O_{6257}$로 표기 이러한 representation의 단점 - 이러한 예시에서 orange와 apple이 가까운 관계에 있다는 것을 학습하지 못함 --> 두 개의 다른 one-hot vector의 내적(inner product)은 $0$이기 떄문 one-hot representation 대신에 "featurized representation"을 사용해보자! 그 외에 size, cost, alive, verb .. 등등 다양한 feature 생각해볼 수 있음 예를 들어 300개의 feat..
[5.1.] Recurrent Neural Networks(3)
2022. 8. 6. 23:17
인공지능/DLS
Vanishing Gradients with RNNs "The cat, which already ate ... , was full" "The cats, which already ate ..., were full" -> long term dependency 를 가지는 경우 깊은 NN 모델이 vanishing gradient 문제를 겪었듯이, basic RNN 아키텍처 또한 backprop시 앞의 time step의 영향을 추적하기 어려움 -> 많은 "local influences"를 가지게 됨 - 어떤 $\hat{y}$은 주로 그 근처에 있는 $\hat{y}$들에 영향을 받게 됨. 후반에 있는 $\hat{y}$들은 초반의 $\hat{y}$의 영향을 받기 어려움. ("This is because whatev..
[5.1.] Recurrent Neural Networks(2)
2022. 8. 2. 22:37
인공지능/DLS
Backpropagation Through Time 반대 순서로 연산한다고 생각 파라미터들 ($w_{a}$, $b_{a}$, $w_{y}$, $b_{y}$) 공유한다는 점 잊지 말기 a single prediction at a single position(at a single time set) 전체 시퀀스에 대해서는? $$L(\hat{y}, y) = \sum_{t=1}^{T_{x}} L^{}(\hat{y}^{}, y^{})$$ time step마다 loss를 구할 수 있음 -> 다 더하면 최종 $L$ 이 과정을 전부 거꾸로 -> derivatives 구해서 파라미터 업데이트 - back prop하는 건 크게 다르지 않음 time step을 거꾸로 타고 흐르는 back prop이 핵심 -> "backpro..
[5.1.] Recurrent Neural Networks(1)
2022. 8. 2. 21:19
인공지능/DLS
Why Sequence Models? Speech recognition, music generation, Sentiment classification, DNA sequence analysis, Machine translation, Video activity recognition, Name entity recognition, ... $x$나 $y$가 sequence data 일 때 (길이가 다를 수 있음) Notation where are the names? (name entity recognition) $x$ : Harry Potter and Hermione Granger invented a new spell $y$ : 1 1 0 1 1 0 0 0 0 ( $x^{}$, $y^{}$('t'emporal s..
[4.4.] Neural Style Transfer
2022. 8. 2. 18:02
인공지능/DLS
What is Neural Style Transfer? Content image ($C$), Style image($S$), Generated image($G$) What are deep ConvNets learning? [Visualizing what a deep network is learning] Pick a unit in layer 1. Find the nine image patches that maximize the units activation 특정 unit의 활성화값을 극대화한 이미지(패치)가 무엇인가? - hidden unit in layer 1 will see only a relatively small portion of the neural network - if you plot what..