ReStyle 이해하기
2022. 8. 1. 18:50
인공지능/computer vision
초록 최근 GAN 활용에 있어서 unconditional한 이미지 합성이 주목 받음. 학습된 GAN의 latent code로 이미지를 invert하는 과제가 매우 중요. 실제 이미지를 조작하고 네트워크가 학습한 semantics를 활용할 수 있음. 현재 invert 방식의 한계를 인지하고, 새로운 invert 전략을 제시하고자 함. iterative refinement (반복 세분화) 메커니즘을 도입하여, 현재의 encoder 기반 invert 방법론을 확장한 것임. 주어진 이미지의 latent code를 single pass로 직접 예측하는 대신에, encoder로 하여금 self-correcting(자가 수정) 방식으로 invert된 latent code의 현재 추정값에 대하여 잔차(residual)..
p2S2p 이해하기
2022. 8. 1. 18:46
인공지능/computer vision
Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 초록 포괄적인 image-to-image 변환 프레임워크 pixel2style2pixel. pSp 프레임워크는 pretrained StyleGAN 생성기에 입력될 일련의 style vector를 직접 생성하는 새로운 encoder 네트워크를 기반으로 한다. 확장된 W+ latent space를 형성함. 추가적인 optimization 없이 encoder가 실제 이미지들을 W+에 직접 임베딩, encoder를 image-to-image 변환 과제에 사용함. 입력 도메인에서 latent 도메인으로 encoding 하는 문제로 접근함. 기존 styleGAN encoder를 사용해 “inv..
styleGAN3 이해하기
2022. 8. 1. 18:27
인공지능/computer vision
보충 지식 Shannon-Nyquist 정리, Aliasing … https://blog.naver.com/sdj9604/222192630938 https://m.blog.naver.com/wyepark/221013968332 디렉 델타 함수(Dirac Delta Function) - “신호 처리 분야에서는 임펄스 함수라고 부르기도 한다” https://ghebook.blogspot.com/2011/10/dirac-delta-function.html Shannon-Nyquist 정리 모든 신호는 그 신호에 포함된 가장 높은 진동수의 2배에 해당하는 빈도로 일정한 간격으로 샘플링하면 원래 신호를 완벽하게 기록할 수 있다. (ex. 1초에 10번 진동하는 신호는 0~1초 가로축을 20조각으로) (출처 htt..
[4.3.] Detection Algorithms(2)
2022. 8. 1. 00:52
인공지능/DLS
Bounding Box Predictions 빨간색 - ground truth (심지어 정사각형도 아님) 파란색 - predicted bounding box (이게 최선) 더 정확한 bounding box를 구하는 방법은? [YOLO algorithm - You Only Look Once] 100 x 100 이미지가 있을 때 그리드로 나눈다 (예시를 위해 3 x 3 그리드로 나누었지만 실제로는 19 x 19 등 좀더 세밀한 그리드 사용) image classification + localization 알고리즘을 각 그리드셀에 적용한다 각 그리드셀에 대하여: $$y = \begin{bmatrix}P_{c} \\b_{x} \\ b_{y} \\ b_{h} \\b_{w} \\ c_{1} \\ c_{2} \\ c..
[4.3.] Detection Algorithms(1)
2022. 7. 28. 22:43
인공지능/DLS
Object Localization 첫번째, 두번째는 보통 하나의 오브젝틀 대상으로 함. 반면 세번째는 여러개의 오브젝트. [Classification with localization] classification 모델에 bounding box를 출력하는 output unit을 추가할 수 있음 $b_{x}$, $b_{y}$, $b_{h}$, $b_{w}$ -> detect된 오브젝트의 bounding box 학습셋이 라벨 뿐만 아니라 이 네가지 숫자 $b_{x}$, $b_{y}$, $b_{h}$, $b_{w}$ 도 포함하고 있음 --> need to output $b_{x}$, $b_{y}$, $b_{h}$, $b_{w}$, (probability of) class label *사진 속에 오브젝트는 한 ..
[4.2.] Practical Advice for Using ConvNets
2022. 7. 27. 23:29
인공지능/DLS
Using Open-Source Implementation github에서 오픈소스 사용하는 법 알려줌 Transfer Learning pretrained model 활용하기 1000개 클래스 분류하는 모델이 있따고 해보자 원래 있던 softmax 레이어를 지우고 나의 분류 클래스에 맞게 softmax layer를 추가한다 그리고 앞 레이어들의 파라미터를 freeze 하고 softmax layer만 재학습한다 작은 데이터셋으로도 좋은 효과를 낼 수 있음 traininable parameters = 0 , freeze = 1 와 같이 전이학습을 위한 옵션 포함되어 있는 경우 많음 빠르게 학습할 수 있는 팁 하나: 전체 input x 로 특정 레이어를 pre-compute 하고, 그 활성화값들을 디스크에 저..
[4.2.] Case Studies(2)
2022. 7. 26. 23:52
인공지능/DLS
Networks in Networks and 1x1 Convolutions [1x1 Convolutions] 여기서는 그냥 2배 곱하는 효과밖에 안 됨 (input이 6x6x1 이미지) 하지만 채널수가 32개라면 어떨까? 1x1 블록은 volume(channel)을 가로질러(-> one slice) 한 위치의 픽셀값들을 확인할 수 있게 해준다 마치 32개의 입력값을 받는 신경망 노드 하나의 역할을 하는 것이다 + 1x1블록 filter가 여러개라면 여러 노드를 이루는 것 "It is basically having a fully connected neural network" "one-by-one convolution" 혹은 "network in network"라고 부름 [Using 1x1 convoluti..
[4.2.] Case Studies(1)
2022. 7. 24. 21:50
인공지능/DLS
Why look at case studies? building blocks를 어떻게 쌓아야 효과적일까? 한 task에 잘 작동하는 아키텍쳐가 다른 task에도 효과적일 수 있다 [Classic networks] - LeNet-5 - AlexNet - VGG [ResNet] - 152개 레이어 (very deep) [Inception] Classic Networks [LeNet-5] - hand written digits - 0~9 분류 - 약 60000개 파라미터 (오늘날 기준 비교적 적은 편) - $n_{H}$, $n_{W}$는 감소하고, $n_{C}$는 증가 - conv - pool - conv - pool - fc - fc - output (advanced comments) 당시에는 sigmoid/..