VOC_Monitor/test/verify_parquet.py

34 lines
1.2 KiB
Python

import pandas as pd
def verify_parquet():
file_path = "data/unified_timetable.parquet"
try:
df = pd.read_parquet(file_path)
except Exception as e:
print(f"파일을 읽을 수 없습니다: {e}")
return
print(f"=== Parquet 파일 검증 ({file_path}) ===")
print(f"1. 전체 데이터(행) 수: {len(df)}")
unique_trains = sorted(df["train_number"].unique())
print(f"2. 포함된 총 열차(열번) 대수: {len(unique_trains)}")
unique_stations = df["station"].unique().tolist()
print(f"3. 포함된 총 역(station) 개수: {len(unique_stations)}")
print("\n4. 열차 번호(train_number) 목록 (앞 20개, 뒤 20개):")
print(f"{unique_trains[:20]} ...")
print(f"{unique_trains[-20:]}")
print("\n5. 역(station) 목록:")
print(unique_stations)
# 특정 열차가 모든 역의 데이터를 가지고 있는지 샘플 확인
sample_train = unique_trains[0]
train_data_count = len(df[df["train_number"] == sample_train])
print(f"\n6. 샘플 열차({sample_train})의 데이터 건수: {train_data_count}")
if __name__ == "__main__":
verify_parquet()