데이터분석을 위해서 Kaggle을 많이 사용할텐데, 많이 사용하는 Colab나 Jupyter Notebook 환경에서 바로 다운로드를 받을 수 있는 방법에 대해 고민을 했고, 방법을 찾아서 정리하였다.
1. Kaggle API Token 다운로드
Kaggle 홈페이지에서 프로필 사진 > Settings > Account 로 이동해서 API 항목으로 이동한다.
"Create New Token"을 눌러서 kaggle.json 파일 다운로드할 수 있다.
2. Colab 환경에서 Kaggle 접근
아래 코드 입력하여 kaggle에 접근한다. (Colab의 cell에서는 한꺼번에 입력해도 작동)
!pip install -q kaggle
!mkdir -p ~/.kaggle
from google.colab import files
files.upload()
API Key를 활용할 수 있도록 아래 코드 입력하면 된다.
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
3. Kaggle 데이터셋 조회
아래 코드를 입력해 캐글의 데이터셋 조회할 수 있다.
!kaggle datasets list
원하는 데이터셋을 다운로드 받기 위해 필요한 데이터셋 식별자(dataset identifier)를 조회할 수 있다.
방법 1) kaggle 홈페이지에서 원하는 데이터셋을 찾고, url에서 "../datasets/" 이후 값을 확인
방법 2) 아래 코드에 " " 안에 원하는 키워드를 통해 검색해서 원하는 ref 값을 확인
!kaggle datasets list -s "google play store"
4. Kaggle 데이터셋 다운로드
아래 코드는 데이터셋을 다운로드하는 명령어로 바로 위에서 확인한 식별자를 입력한다. (보통 'username/dataset-name' 형태라는 점은 참고하면 좋다)
# import the dataset
!kaggle datasets download -d <dataset-identifier>
아래 코드는 다운로드 받은 데이터셋(zip)을 압축을 해제시킨다. (이번 사례에서는 file_name은 "google-play-store-apps.zip"을 활용)
# unzip the dataset
!unzip -q /content/file_name.zip
간혹, 위 코드 실행 과정 중에서 아래처럼 물어보는 경우가 있는데, 이건 n, A, N, r 중 알아서 원하는 것을 입력하면 된다.
위 과정을 잘 마치고 나면 아래처럼 잘 다운로드된 것을 확인할 수 있다.
'Python > Data Prep' 카테고리의 다른 글
DataLoader에서 오류가 난다면 누락 데이터가 있는지 확인 필요 | DataLoader는 이터레이터 (2) | 2024.09.26 |
---|---|
PyTorch에서 Dataset과 DataLoader 클래스를 활용해 데이터 파이프라인 구축하기 (1) | 2024.09.09 |
Selenium 을 활용한 Element 찾기 (find_element, By) | Python, Web Scraping, Web Crawling, 자동화 (0) | 2022.08.09 |
Selenium을 활용한 지자체 선거 당선인 데이터 가져오기 | Web Scraping (0) | 2021.10.16 |
파이썬으로 여러 페이지에 있는 정부 보도자료 크롤링하기_페이지네이션 | Web Scraping (0) | 2021.10.04 |