AI
-
2. Dataset & DataloaderAI/3주차 2021. 8. 19. 11:35
Dataset: getitem에서 map-style을 통해 데이터를 어떻게 반환할지 정해줌 데이터 형태에 따라 함수를 다르게 정의 데이터 생성 시점에 모든 처리를 할 필요는 없다 transforms: 이미지 전처리, augmentation Dataloader: 이를 이용하여 모델에 데이터가 들어감 Data의 batch를 만들어줌 https://subinium.github.io/pytorch-dataloader/ [Pytorch] DataLoader parameter별 용도 pytorch reference 문서를 다 외우면 얼마나 편할까!! subinium.github.io
-
1. PytorchAI/3주차 2021. 8. 17. 17:35
Pytorch vs Tensorflow Pytorch: Define by run (Dynamic Computation Graph) -> debug 시 편함 Tensorflow: Define and run Define and Run은 코드를 직접 돌리는 환경인 세션을 만들고, placeholder를 선언하고 이것으로 계산 그래프를 만들고(Define), 코드를 실행하는 시점에 데이터를 넣어 실행하는(Run) 방식. 이는 계산 그래프를 명확히 보여주면서 실행시점에 데이터만 바꿔줘도 되는 유연함을 장점으로 갖지만, 그 자체로 비직관적이다. 그래서 딥러닝 프레임워크 중 난이도가 가장 높은 편이다. 두 프레임워크 모두 계산 그래프를 정의하고 자동으로 그래디언트를 계산하는 기능이 있다. 하지만 Tensorflow의..
-
6. Generative ModelsAI/2주차 2021. 8. 13. 15:22
만약 강아지들의 이미지가 주어지고, 그로부터 probability p(x)를 학습한다면 Generation: $ x_{new} $ ~ $ p(x), x_{new} $ 는 강아지 같아야 한다(sampling) Density Estimation(anomaly detection): x가 강아지 처럼 생겼다면 p(x)가 크고, 강아지처럼 생기지 않았다면 작아야한다. Unsupervised representation learning: 강아지들이 공통적으로 가지는 특징에 대해 배운다 (feature learning), e.g., ears, tail, etc p(x)는 어떻게 만드는가?? 만약 RGB distribution을 만든다고 해보자. 하나의 픽셀의 색은 256 * 256 * 256 가지의 색을 만들 수 있다..
-
4. ConvolutionAI/2주차 2021. 8. 11. 17:10
파라미터 갯수 계산하기 (Padding (1), Stride (1), 3 X 3 Kernel) 3 * 3 * 128의 convolution 필터를 이용하여 계산하면 1개의 채널을 가진 output이 나오고, 64개의 채널이 필요하기 때문에 3 * 3 * 128 * 64 = 73,728의 파라미터가 필요하다. 1 * 1 convolution Dimension 축소 파라미터 감소 bottleneck architecture AlexNet 8 layer ReLU 2 GPU VGGNet 3 X 3 convolution filters GoogLeNet Inception Block: 파라미터 개수를 줄임 ResNet Skip Connection Bottleneck Architecture DenseNet Additi..
-
3. OptimizationAI/2주차 2021. 8. 10. 13:31
Generalization 많은 경우에 일반화 성능을 높이는 것이 중요하다. Overfitting vs Underfitting Overfitting: 학습 오류가 테스트 오류보다 매우 작을 때 과적합이 일어났다고 한다. Underfitting: 모델이 너무 간단하여 학습 오류가 줄어들지 않는 것 Cross Validation 특정 데이터에 대해 과적합이 일어나는 것을 막기 위해서 모든 train data를 validation에 사용. 하이퍼 파라미터를 정할 때 유용하다. Bias-Variance tradeoff Cost를 최소화 한다는 것은 bias, variance, noise를 줄이는 것과 같으며, bias와 variance에는 반비례 관계가 일반적으로 존재한다. Bootstrapping Any te..
-
2. 딥러닝 Basic & MLPAI/2주차 2021. 8. 9. 13:50
Key Components of DL Data Model Loss Function Algorithm 딥러닝 역사 AlexNet (2012) DQN (2013) Encoder/Decoder, Adam (2014) GAN, ResNet (2015) Transformer (2017) Bert (2018) Big Language Models(GPT-X) (2019) Self-Supervised Learning (2020) - SimCLR A Simple Framework for Contrastive Learning of Visual Representations This paper presents SimCLR: a simple framework for contrastive learning of visual rep..
-
1. 데이터 시각화AI/2주차 2021. 8. 9. 11:45
데이터 시각화는 데이터를 그래픽 요소로 매핑하여 시각적으로 표현하는 것이다. 시각화를 위해서는 데이터가 필요하다. 데이터는 다음과 같은 종류로 분류 할 수 있다. 정형 데이터: 테이블 형태로 제공되는 데이터. Row가 데이터 1개 item, Column은 attribute. 주로 통계적 특성을 많이 시각화 하고, 피쳐간의 관계를 비교한다. 시계열 데이터: 시간 흐름에 따른 데이터. 기온, 주가 등 정형데이터와 음성 비디오와 같은 비정형 데이터가 존재. 시간 흐름에 따른 추세(Trend) , 계절성(Seasonality), 주기성(Cycle) 등을 살핌 지리 데이터: 지도 정보와 보고자 하는 정보 간의 조화가 중요하며, 지도 정보를 단순화 시키는 경우도 있다. 관계형 데이터: 객체와 객체 간의 관계를 시각..