데이터 분석의 첫걸음: Pandas로 데이터 처리하기
데이터 분석은 현대 비즈니스와 연구 분야에서 중요한 역할을 차지하고 있습니다. 이 분야에서의 첫걸음으로, Python의 Pandas 라이브러리는 데이터 처리와 분석을 위한 강력하고 편리한 도구를 제공합니다. 이 포스팅에서는 Pandas의 기본 사용법을 소개하고, 간단한 데이터 분석을 수행하는 방법을 알아보겠습니다.
Pandas란?
Pandas는 Python으로 작성된, 고수준의 데이터 구조와 빠르고, 유연한 데이터 분석 도구를 제공하는 오픈 소스 라이브러리입니다. 주로 DataFrame이라는 2차원 데이터 구조를 사용하여, Excel의 스프레드시트와 유사한 방식으로 데이터를 쉽게 조작할 수 있습니다.
Pandas 설치하기
Pandas를 사용하기 전에, 먼저 설치해야 합니다. Python이 이미 설치되어 있다고 가정하고, 다음 명령어를 사용하여 Pandas를 설치할 수 있습니다:
pip install pandas
기본 사용법
데이터 불러오기
Pandas를 사용하여 다양한 형식의 파일을 읽고 쓸 수 있습니다. 여기서는 CSV 파일을 예로 들겠습니다:
import pandas as pd
# CSV 파일 불러오기
df = pd.read_csv("example.csv")
데이터 탐색하기
데이터를 불러왔다면, 기본적인 탐색을 통해 데이터에 대한 감을 잡을 수 있습니다:
# 상위 5개 행 보기
print(df.head())
# 데이터프레임의 정보 요약
print(df.info())
데이터 선택하기
Pandas에서는 다양한 방법으로 데이터를 선택할 수 있습니다. 가장 간단한 방법은 열(컬럼)과 행(인덱스)을 선택하는 것입니다:
# 'Name' 열 선택
names = df['Name']
# 0부터 4까지 행 선택
first_five_rows = df[0:5]
데이터 필터링
특정 조건을 만족하는 데이터만 선택하는 것도 가능합니다:
# 'Age'가 30 이상인 행만 선택
older_than_30 = df[df['Age'] >= 30]
데이터 통계
Pandas는 데이터의 기술적 통계를 쉽게 계산할 수 있게 해줍니다:
# 각 열의 평균값 계산
print(df.mean())
# 특정 열의 중앙값 계산
print(df['Age'].median())
데이터 수정하기
데이터를 수정하고 조작하는 것도 간단합니다:
# 새로운 열 추가
df['NewColumn'] = df['Age'] * 2
# 특정 열의 값을 변경
df.loc[df['Age'] < 18, 'Underage'] = True
실제 데이터 분석 사례
이제 Pandas의 기본을 알아보았으니, 간단한 데이터 분석 사례를 통해 실제로 어떻게 활용할 수 있는지 살펴보겠습니다. 예를 들어, 고객 데이터가 담긴 CSV 파일에서 평균 연령을 계산하고, 특정 연령대의 고객 수를 세는 것입니다. 이러한 분석을 통해, 비즈니스 전략을 수립하는 데 도움이 될 수 있습니다.
Pandas는 데이터 분석의 세계로의 첫걸음을 내딛는 데 있어 매우 강력한 도구입니다. 여기서 소개한 기능들은 단지 시작에 불과합니다. Pandas를 활용하여 데이터를 조작하고 분석하는 능력을 계속해서 발전시켜 나간다면, 데이터 과학자로서의 여정이 훨씬 풍부하고 생산적일 것입니다.