ML, DL 7

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 리뷰

논문 링크: https://arxiv.org/abs/1703.04247 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction Learning sophisticated feature interactions behind user behaviors is critical in maximizing CTR for recommender systems. Despite great progress, existing methods seem to have a strong bias towards low- or high-order interactions, or require expertise featu arxiv.org 본 논문은 Wide & Deep L..

Generative Adversarial Nets 리뷰

오늘 리뷰할 논문은 GAN으로 더 잘 알려진, 적대적 인공신경망을 처음으로 제안한 논문이다. 뭐 이미 말할 필요도 없이 유명하기도 하고, 수많은 variation이 나오기도 했다. 논문의 제 1저자인 이안 굿펠로우는 GAN의 generator를 지폐위조범으로, discriminator를 경찰로 묘사했다. 지폐위조범은 위조 지폐를 더욱 더 진짜 같이 위조하고, 경찰은 그걸 구분하려고 경쟁하는 과정에서 상호발전이 일어난다는 것이다. 사실 우리의 목표는 경찰보다는 지폐위조범의 생성능력을 상승시키는 것에 있다. 결국 학습의 끝에서는 경찰이 어느 것이 위조 지폐인지 진짜 지폐인지 알아볼 수 없도록 말이다. 이렇듯 기본적인 아이디어는 굉장히 직관적이지만, 이론적 배경은 꽤나 탄탄하다. 이제 차근차근 하나씩 알아보겠..

Auto-Encoding Variational Bayes 리뷰

VAE로 잘 알려진 Auto-Encoding Variational Bayes를 리뷰해보려고 한다. 이 논문은 Auto-Encoder를 보다 probabilistic한 관점으로 접근한 논문으로, black box 모델이라고 생각되어지는 neural network를 확률적인 시각으로 볼 수 있다는 아이디어를 제시했으므로 통계학과인 나에게는 더 특별하게(?) 다가왔다. 논문 초록에 의하면, 이 논문은 intractable한 posterior를 가지는 경우에 variational lower bound를 reparameterization하여 그것을 바로 optimize함으로써 stochastic gradient방법으로 해결할 수 있다고 한다. 또한, approximate posterior inference를 적합..

GPT-1 리뷰: Improving Language Understanding by Generative Pre-training

이번에는 GPT-1으로 더 잘 알려진 Improving Language Understanding by Generative Pre-training을 리뷰해보려고 한다.이 논문은 large unlabeled text는 방대하지만 태스크를 위한 라벨링 된 데이터는 적다는 사실에서 착안한 것으로, unlabeled text에 대해서는 generative pre-training을 수행하고 이후 실제 태스크에 대하여 discriminative fine-tuning을 수행하는 것을 키아이디어로 삼는다. 또한 이전 시도들과는 다르게 파인튜닝 과정에 있어서 task-aware input transformations을 수행함으로써 transfer의 효과를 극대화했다. 이러한 결과로 기존 모델의 구조에 최소한의 변화를 주고..

Why Should I Trust You? 리뷰

오늘 리뷰해볼 논문은 Classifier의 예측을설명할 수 있는 기법을 소개한 논문이고, 블랙박스에 해당하는 머신러닝/딥러닝 모델을 interpret하려는 시도의 첫 스타트를 끊었다고 한다. 1. Introduction trust에는 크게 두 가지 종류가 있다. $\text{trusting a prediction}$과 $\text{trusting a model}$ 전자는 모델의 예측을 믿고 이를 바탕으로 의사결정을 하는 것, 후자는 모델 전반에 대한 신뢰를 의미한다. 전자를 위해 논문의 저자들은 LIME 알고리즘, 후자를 위해 SP-LIME 알고리즘을 제시하고 있다. 뭐 이에 대해서는 뒤에서 천천히 알아보도록 하자.. 2. The Case for Explanations 내용이 많지만, 이 목차에서 핵심적..

Empricial Evaluation of Gated Recurrent Neural Networks On Sequence Modeling 리뷰

이번에 리뷰할 논문은 Empricial Evaluation of Gated Recurrent Neural Networks On Sequence Modeling로, 일반적으로 GRU(Gated Recurrent Unit)이라고 불리는 딥러닝 아키텍처와 LSTM(Long Short-Term Memory)라고 불리는 딥러닝 아키텍처를 비교한 논문이다. GRU 같은 경우에는 NLP의 대가이신 조경현 교수님이 참여하셨기 때문에... 한국인으로서 더 의미있는 자연어처리 논문이 아닐까 싶다. 1. Introduction 지금은 바야흐로 트랜스포머의 시대지만, 이 논문이 나왔을 때에는 LSTM이 시계열 데이터 처리 모델로 각광받고 있었고 GRU는 나온지 얼마 되지 않았기 때문에 기계번역에서만 사용되고 있었다. 따라서 ..

Transformer-XL 리뷰

1. Introduction Language Modeling은 NLP에서 항상 중요한 태스크로 자리잡아왔다. Word2Vec, RNNLM 부터 ELMO, BERT까지 Language Modeling에 해당하는 모델들로, 단어에 대한 good representation을 찾고자 했다. 다만, long-term dependency를 포착하는 것이 중요하나 쉽지 않았다. Vanilla RNN에서는 gradient vanishing/explosion 문제가 있었고, 이를 해결하기 위해 LSTM, gradient clipping technique 등이 등장했지만 insufficient 했다고 한다. 따라서 어텐션만 사용하는 트랜스포머만 사용하여 LM을 훈련시키고자 하는 시도가 있었고 대체로 LSTM 계열의 모델보..