Study/Python
Pandas가 뭐지?
knowledge hunter
2025. 1. 26. 23:22
728x90
반응형
AI 관련 내용을 학습하다보면 Pandas import 하는 부분이 많이 나와서 무엇인지 살펴 보았다.
Pandas란?
- Pandas는 Python의 데이터 조작 및 분석을 위한 라이브러리입니다.
- **데이터프레임(DataFrame)**이라는 2차원 데이터 구조를 제공하여 엑셀, CSV, SQL 등에서 데이터를 가져오고 처리하기 쉽게 만듭니다.
- Pandas는 대용량 데이터 분석이나 정형 데이터 처리에 매우 유용합니다.
Pandas의 주요 기능
- 데이터 로드 및 저장:
- 다양한 파일 형식(CSV, Excel, SQL 등)에서 데이터를 불러오거나 저장 가능.
import pandas as pd data = pd.read_csv('file.csv') # CSV 파일 불러오기 data.to_excel('file.xlsx') # 데이터를 엑셀 파일로 저장
- 다양한 파일 형식(CSV, Excel, SQL 등)에서 데이터를 불러오거나 저장 가능.
- 데이터 탐색:
- 데이터를 빠르게 요약하거나 특정 행/열을 확인할 수 있음.
print(data.head()) # 데이터의 상위 5개 행 확인 print(data.info()) # 데이터의 요약 정보 print(data.describe()) # 수치 데이터의 통계 요약
- 데이터를 빠르게 요약하거나 특정 행/열을 확인할 수 있음.
- 데이터 조작:
- 데이터 필터링, 정렬, 그룹화, 결합 등을 지원.
filtered = data[data['Age'] > 30] # 나이가 30보다 큰 행 필터링 sorted_data = data.sort_values('Salary', ascending=False) # 급여 기준 내림차순 정렬
- 데이터 필터링, 정렬, 그룹화, 결합 등을 지원.
- 결측값 처리:
- 결측값을 쉽게 확인하고 대체하거나 제거 가능.
data['Age'].fillna(data['Age'].mean(), inplace=True) # 결측값을 평균으로 채우기 data.dropna(inplace=True) # 결측값이 있는 행 제거
- 결측값을 쉽게 확인하고 대체하거나 제거 가능.
- 데이터 시각화 (간단한 그래프):
- Pandas와 Matplotlib을 활용하여 데이터를 시각화 가능.
data['Salary'].plot(kind='hist') # 급여 분포 히스토그램
- Pandas와 Matplotlib을 활용하여 데이터를 시각화 가능.
Pandas가 자주 사용되는 이유
- 강력한 데이터 처리 기능:
- 복잡한 데이터 처리와 변환 작업을 쉽게 수행할 수 있음.
- 다양한 데이터 형식 지원:
- CSV, Excel, SQL, JSON 등 다양한 형식의 데이터와 연동 가능.
- Python 생태계와의 호환성:
- Numpy, Matplotlib 등 다른 Python 라이브러리와 쉽게 통합 가능.
- 대중적이고 문서화 잘 되어 있음:
- Pandas는 머신러닝, 데이터 분석 프로젝트에서 표준처럼 사용됨.
728x90
반응형
LIST