Python

Colab과 Google Drive 환경에서 .zip.part 파일 병합 및 압축 해제

alba 2024. 10. 8. 17:55

데이터를 다운받아서 다루다 보면 zip.part01203 이런식의 파일명을 접하게 될 때가 있다.

 

Google Colab 상에서 이러한 파일들을 병합하고 압축을 해제해 데이터를 분석하는 방법을 간단히 정리해보았다.

 

일단 zip.part01203 이건 뭘 의미할까?

 

그냥 대강 설명하자면 zip 파일이 여러개의 part로 나뉘었다 정도로 생각하면 될 것이다.

 

파일을 잘 살펴보면 part0, part123123, part256 이런식으로 part0,1,2,,, 나뉘어져 있을 것이다.

 

이 파일을 csv파일등으로 전환하기 위해선 병합하고, 압축 해제하면 된다. 

 

1. Google Drive 연결하기

먼저 Colab과 Google Drive를 연결해야 한다. 아래 코드를 실행하면 Google Drive에 접근할 수 있다.

당연한 것..ㅎ

from google.colab import drive
drive.mount('/content/drive')

 

2. .zip.part 파일 병합하기

 

다음으로, 여러 개의 .zip.part 파일을 하나의 .zip 파일로 병합한다. !cat 명령어를 사용해 병합할 수 있다.

!cat /content/drive/MyDrive/path_to_files/your_file.zip.part* > /content/drive/MyDrive/path_to_files/your_file.zip

 

 

3. 병합된 .zip 파일 압축 해제

병합된 .zip 파일을 !unzip 명령어로 압축 해제한다.

!unzip /content/drive/MyDrive/path_to_files/your_file.zip -d /content/drive/MyDrive/path_to_extract/

 

 

4. CSV 파일 불러오기

마지막으로, 압축을 해제한 CSV 파일을 pandas를 사용해 불러온다.

import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/path_to_extract/your_file.csv')
df.head()

 

 

AI허브 데이터가 이러한 형태로 되어있는 경우가 많고 다운받아보면 엄청 경로가 복잡하다. 따라서 

!ls /content/drive/MyDrive/data/117.금융_합성데이터/3.개방데이터/1.데이터/1._합성데이터/

 

이런 식으로 !ls 명령어로 경로와 파일명을 잘 확인한 후 진행하는 것을 추천한다.

 

이 간단한 단계들을 통해 Colab과 Google Drive 환경에서 .zip.part 파일을 쉽게 병합하고 데이터를 분석할 수 있다. Python과 Colab을 활용해 데이터를 더욱 효과적으로 다뤄보도록 하자. 😊

'Python' 카테고리의 다른 글

anaconda 가상환경 상황 보기, 활성화하기  (0) 2024.04.11
파이썬 with as 구문  (0) 2022.01.14