반응형

 

데이터분석을 위해서 Kaggle을 많이 사용할텐데, 많이 사용하는 Colab나 Jupyter Notebook 환경에서 바로 다운로드를 받을 수 있는 방법에 대해 고민을 했고, 방법을 찾아서 정리하였다. 

 

1. Kaggle API Token 다운로드

Kaggle 홈페이지에서 프로필 사진 > Settings > Account 로 이동해서 API 항목으로 이동한다.

 

 

"Create New Token"을 눌러서 kaggle.json 파일 다운로드할 수 있다. 

 

2. Colab 환경에서 Kaggle 접근

아래 코드 입력하여 kaggle에 접근한다. (Colab의 cell에서는 한꺼번에 입력해도 작동)

 

!pip install -q kaggle
!mkdir -p ~/.kaggle
from google.colab import files
files.upload()

 

 

API Key를 활용할 수 있도록 아래 코드 입력하면 된다. 

 

!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

3. Kaggle 데이터셋 조회

아래 코드를 입력해 캐글의 데이터셋 조회할 수 있다. 

 

!kaggle datasets list

 

 

원하는 데이터셋을 다운로드 받기 위해 필요한 데이터셋 식별자(dataset identifier)를 조회할 수 있다. 

 

방법 1) kaggle 홈페이지에서 원하는 데이터셋을 찾고, url에서 "../datasets/" 이후 값을 확인 

 

 

 

방법 2) 아래 코드에 " " 안에 원하는 키워드를 통해 검색해서 원하는 ref 값을 확인

!kaggle datasets list -s "google play store"

 

4. Kaggle 데이터셋 다운로드

 

아래 코드는 데이터셋을 다운로드하는 명령어로 바로 위에서 확인한 식별자를 입력한다. (보통 'username/dataset-name' 형태라는 점은 참고하면 좋다)

 

# import the dataset
!kaggle datasets download -d <dataset-identifier>

 

아래 코드는 다운로드 받은 데이터셋(zip)을 압축을 해제시킨다. (이번 사례에서는 file_name은 "google-play-store-apps.zip"을 활용)

 

# unzip the dataset
!unzip -q /content/file_name.zip

 

간혹, 위 코드 실행 과정 중에서 아래처럼 물어보는 경우가 있는데, 이건 n, A, N, r 중 알아서 원하는 것을 입력하면 된다. 

 

 

위 과정을 잘 마치고 나면 아래처럼 잘 다운로드된 것을 확인할 수 있다.

 

반응형