[4.4.] Face Recognition
2022. 8. 2. 15:57
인공지능/DLS
What is Face Recognition? [Face verification vs. Face recognition] Verification - input image, name/ID - Output whether the input image is that of the claimed person - one-to-one problem Recognition - Has a database of K persons - Get an input image - Output ID if the image is any of the K persons (or "not recognized") -> verification 정확도가 99% 면 괜찮은 정도인데, 만약 recognition 정확도가 99%라면 (그리고 K가 100명이라..
[4.3.] Detection Algorithms(3)
2022. 8. 2. 00:40
인공지능/DLS
Region Proposals 오브젝트가 뻔히 없는 구역이 있다 "R-CNN" (regions with conv nets) conv net 연산할 만한 구역만 골라서 진행 segmentation 알고리즘 수행한 뒤에 blob이 보이는 곳에만 conv 연산 수행 (이미지 전체에 conv 연산하는 것보다 나을 수도) R-CNN의 속도를 개선시키려는 노력이 있었음 Semantic Segmentation with U-Net [object detection vs. semantic segmentation] 예를 들어 도로를 object detection한다고 하면 bounding box를 표시하는 게 그다지 좋은 방법이 아닌데, segmentation 방식으로는 좀더 구체적으로 구분할 수 있게 됨 [Per-pixe..
few-shot GAN ada 이해하기
2022. 8. 1. 18:55
인공지능/computer vision
초록 생성 모델(GAN)을 제한된 샘플(e.g. 10)로 이루어진 타겟 도메인에 학습시키는 것은 오버피팅으로 이어지기 쉬움. 본 논문에서는 pretraining에 많은 양의 소스 도메인을 활용하고, 소스에서 타겟으로 diversity information을 transfer함. 새로운 cross-domain distance consistency loss를 통해 소스 객체들 간의 상대적인 유사점과 차이점을 보존함. 오버피팅을 더욱 줄이기 위해 anchor-based 전략을 제시, latent space의 여러 영역에 걸쳐 다양한 수준의 realism을 조성하도록 함. photorealistic, non-photorealistic 도메인에서의 결과를 통해 질적, 양적으로 증명함 - 본 논문의 few-shot ..
ReStyle 이해하기
2022. 8. 1. 18:50
인공지능/computer vision
초록 최근 GAN 활용에 있어서 unconditional한 이미지 합성이 주목 받음. 학습된 GAN의 latent code로 이미지를 invert하는 과제가 매우 중요. 실제 이미지를 조작하고 네트워크가 학습한 semantics를 활용할 수 있음. 현재 invert 방식의 한계를 인지하고, 새로운 invert 전략을 제시하고자 함. iterative refinement (반복 세분화) 메커니즘을 도입하여, 현재의 encoder 기반 invert 방법론을 확장한 것임. 주어진 이미지의 latent code를 single pass로 직접 예측하는 대신에, encoder로 하여금 self-correcting(자가 수정) 방식으로 invert된 latent code의 현재 추정값에 대하여 잔차(residual)..
p2S2p 이해하기
2022. 8. 1. 18:46
인공지능/computer vision
Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation 초록 포괄적인 image-to-image 변환 프레임워크 pixel2style2pixel. pSp 프레임워크는 pretrained StyleGAN 생성기에 입력될 일련의 style vector를 직접 생성하는 새로운 encoder 네트워크를 기반으로 한다. 확장된 W+ latent space를 형성함. 추가적인 optimization 없이 encoder가 실제 이미지들을 W+에 직접 임베딩, encoder를 image-to-image 변환 과제에 사용함. 입력 도메인에서 latent 도메인으로 encoding 하는 문제로 접근함. 기존 styleGAN encoder를 사용해 “inv..
styleGAN3 이해하기
2022. 8. 1. 18:27
인공지능/computer vision
보충 지식 Shannon-Nyquist 정리, Aliasing … https://blog.naver.com/sdj9604/222192630938 https://m.blog.naver.com/wyepark/221013968332 디렉 델타 함수(Dirac Delta Function) - “신호 처리 분야에서는 임펄스 함수라고 부르기도 한다” https://ghebook.blogspot.com/2011/10/dirac-delta-function.html Shannon-Nyquist 정리 모든 신호는 그 신호에 포함된 가장 높은 진동수의 2배에 해당하는 빈도로 일정한 간격으로 샘플링하면 원래 신호를 완벽하게 기록할 수 있다. (ex. 1초에 10번 진동하는 신호는 0~1초 가로축을 20조각으로) (출처 htt..
[4.3.] Detection Algorithms(2)
2022. 8. 1. 00:52
인공지능/DLS
Bounding Box Predictions 빨간색 - ground truth (심지어 정사각형도 아님) 파란색 - predicted bounding box (이게 최선) 더 정확한 bounding box를 구하는 방법은? [YOLO algorithm - You Only Look Once] 100 x 100 이미지가 있을 때 그리드로 나눈다 (예시를 위해 3 x 3 그리드로 나누었지만 실제로는 19 x 19 등 좀더 세밀한 그리드 사용) image classification + localization 알고리즘을 각 그리드셀에 적용한다 각 그리드셀에 대하여: $$y = \begin{bmatrix}P_{c} \\b_{x} \\ b_{y} \\ b_{h} \\b_{w} \\ c_{1} \\ c_{2} \\ c..
[4.3.] Detection Algorithms(1)
2022. 7. 28. 22:43
인공지능/DLS
Object Localization 첫번째, 두번째는 보통 하나의 오브젝틀 대상으로 함. 반면 세번째는 여러개의 오브젝트. [Classification with localization] classification 모델에 bounding box를 출력하는 output unit을 추가할 수 있음 $b_{x}$, $b_{y}$, $b_{h}$, $b_{w}$ -> detect된 오브젝트의 bounding box 학습셋이 라벨 뿐만 아니라 이 네가지 숫자 $b_{x}$, $b_{y}$, $b_{h}$, $b_{w}$ 도 포함하고 있음 --> need to output $b_{x}$, $b_{y}$, $b_{h}$, $b_{w}$, (probability of) class label *사진 속에 오브젝트는 한 ..