Study/Python

Pandas가 뭐지?

knowledge hunter 2025. 1. 26. 23:22
728x90
반응형

AI 관련 내용을 학습하다보면 Pandas import 하는 부분이 많이 나와서 무엇인지 살펴 보았다. 

 

Pandas란?

  • Pandas는 Python의 데이터 조작 및 분석을 위한 라이브러리입니다.
  • **데이터프레임(DataFrame)**이라는 2차원 데이터 구조를 제공하여 엑셀, CSV, SQL 등에서 데이터를 가져오고 처리하기 쉽게 만듭니다.
  • Pandas는 대용량 데이터 분석이나 정형 데이터 처리에 매우 유용합니다.

Pandas의 주요 기능

  1. 데이터 로드 및 저장:
    • 다양한 파일 형식(CSV, Excel, SQL 등)에서 데이터를 불러오거나 저장 가능.

      import pandas as pd
      data = pd.read_csv('file.csv')  # CSV 파일 불러오기
      data.to_excel('file.xlsx')  # 데이터를 엑셀 파일로 저장



     
  2. 데이터 탐색:
    • 데이터를 빠르게 요약하거나 특정 행/열을 확인할 수 있음.
      print(data.head())  # 데이터의 상위 5개 행 확인
      print(data.info())  # 데이터의 요약 정보
      print(data.describe())  # 수치 데이터의 통계 요약




  3. 데이터 조작:
    • 데이터 필터링, 정렬, 그룹화, 결합 등을 지원.

      filtered = data[data['Age'] > 30]  # 나이가 30보다 큰 행 필터링
      sorted_data = data.sort_values('Salary', ascending=False)  # 급여 기준 내림차순 정렬



     
  4. 결측값 처리:
    • 결측값을 쉽게 확인하고 대체하거나 제거 가능.

      data['Age'].fillna(data['Age'].mean(), inplace=True)  # 결측값을 평균으로 채우기
      data.dropna(inplace=True)  # 결측값이 있는 행 제거


     
  5. 데이터 시각화 (간단한 그래프):
    • Pandas와 Matplotlib을 활용하여 데이터를 시각화 가능.

      data['Salary'].plot(kind='hist')  # 급여 분포 히스토그램



     

Pandas가 자주 사용되는 이유

  1. 강력한 데이터 처리 기능:
    • 복잡한 데이터 처리와 변환 작업을 쉽게 수행할 수 있음.
  2. 다양한 데이터 형식 지원:
    • CSV, Excel, SQL, JSON 등 다양한 형식의 데이터와 연동 가능.
  3. Python 생태계와의 호환성:
    • Numpy, Matplotlib 등 다른 Python 라이브러리와 쉽게 통합 가능.
  4. 대중적이고 문서화 잘 되어 있음:
    • Pandas는 머신러닝, 데이터 분석 프로젝트에서 표준처럼 사용됨.

 

 

 

 

 

728x90
반응형
LIST