📊 Pandas & Numpy 기초 – 데이터 분석을 위한 필수 라이브러리 배우기
AI를 하려면 학습시킬 데이터를 살펴볼 줄 알아야 하고, 데이터 분석을 하려면 Pandas와 Numpy는 필수에요! 🚀
- Pandas: 테이블 형태(엑셀처럼) 데이터를 다루기 위한 라이브러리
- Numpy: 대량의 숫자 데이터를 빠르게 계산할 수 있는 라이브러리
이번 글에서는 Pandas와 Numpy의 기본 개념과 사용법을 배우고, 실전 데이터 분석을 준비하는 방법을 살펴볼게요! 😊
✅ 1. Pandas와 Numpy 설치하기
Pandas와 Numpy는 기본적으로 설치되어 있지 않으므로, 먼저 설치해야 합니다.
pip install pandas numpy
✅ 설치가 완료되면 아래 코드를 실행해 라이브러리가 정상적으로 작동하는지 확인하세요.
import pandas as pd
import numpy as np
print(pd.__version__)
print(np.__version__)
📌 정상적으로 버전 정보가 출력되면 설치가 완료된 것입니다.
✅ 2. Numpy 기초 – 수학 연산을 빠르게 처리하는 라이브러리
Numpy는 수학 연산을 빠르게 처리할 수 있는 라이브러리로, 배열(Array) 연산이 핵심 기능입니다.
📌 1) Numpy 배열 생성하기
import numpy as np
# 리스트를 Numpy 배열로 변환
arr = np.array([1, 2, 3, 4, 5])
print(arr)
print(type(arr))
✅ 출력 결과
[1 2 3 4 5]
<class 'numpy.ndarray'>
📌 Numpy 배열은 리스트와 유사하지만 속도가 훨씬 빠르며, 다양한 연산이 가능합니다.
📌 2) Numpy 기본 연산
arr = np.array([10, 20, 30, 40])
print(arr + 5) # 각 요소에 5를 더하기
print(arr * 2) # 각 요소에 2를 곱하기
print(arr.mean()) # 평균값 구하기
✅ 출력 결과
[15 25 35 45]
[20 40 60 80]
25.0
📌 리스트에서는 요소별 연산이 불가능하지만, Numpy 배열은 한 번에 수학 연산이 가능합니다!
✅ 3. Pandas 기초 – 테이블 형태 데이터를 다루는 라이브러리
Pandas는 엑셀처럼 데이터를 다룰 수 있는 강력한 라이브러리입니다.
📌 1) 데이터프레임 생성하기
import pandas as pd
data = {
"이름": ["김철수", "이영희", "박지훈"],
"나이": [25, 30, 27],
"직업": ["개발자", "마케팅", "디자이너"]
}
df = pd.DataFrame(data)
print(df)
✅ 출력 결과
이름 나이 직업
0 김철수 25 개발자
1 이영희 30 마케팅
2 박지훈 27 디자이너
📌 pd.DataFrame()을 사용하면 엑셀처럼 표 형태의 데이터를 쉽게 만들 수 있음
📌 2) CSV 파일 불러오기
Pandas를 활용하면 CSV 파일도 쉽게 읽어올 수 있습니다.
df = pd.read_csv("data.csv")
print(df.head()) # 처음 5개 행 출력
📌 df.head()는 데이터를 미리보기 할 때 유용한 함수입니다!
📌 3) 특정 열/행 선택하기
print(df["이름"]) # 특정 열 선택
print(df.loc[0]) # 특정 행 선택
📌 .loc[]을 사용하면 엑셀처럼 특정 행을 쉽게 선택할 수 있습니다.
✅ 4. Pandas & Numpy 함께 활용하기
Pandas 데이터프레임에서 Numpy 연산을 함께 사용할 수 있습니다.
df["연봉"] = np.array([5000, 6000, 5500]) # 새로운 열 추가
print(df)
✅ 출력 결과
이름 나이 직업 연봉
0 김철수 25 개발자 5000
1 이영희 30 마케팅 6000
2 박지훈 27 디자이너 5500
📌 Pandas와 Numpy를 조합하면 데이터를 효과적으로 조작하고 분석할 수 있음!
✅ 5. 실전 연습 문제
✏️ 문제 1: 평균 나이 계산하기
📌 df에서 평균 나이를 계산하는 코드를 작성하세요.
average_age = df["나이"].mean()
print("평균 나이:", average_age)
✅ 출력 결과
평균 나이: 27.3
✏️ 문제 2: 특정 조건을 만족하는 데이터 필터링
📌 df에서 나이가 27 이상인 사람만 출력하세요.
filtered_df = df[df["나이"] >= 27]
print(filtered_df)
✅ 출력 결과
이름 나이 직업
1 이영희 30 마케팅
2 박지훈 27 디자이너
✏️ 문제 3: 새로운 열 추가 후 정렬하기
📌 df에 연봉 열을 추가한 후, 연봉이 높은 순서대로 정렬하세요.
df["연봉"] = np.array([5000, 6000, 5500])
sorted_df = df.sort_values(by="연봉", ascending=False)
print(sorted_df)
✅ 출력 결과
이름 나이 직업 연봉
1 이영희 30 마케팅 6000
2 박지훈 27 디자이너 5500
0 김철수 25 개발자 5000
📢 6. 마무리 및 다음 학습
이 글에서는 Pandas와 Numpy를 활용한 데이터 분석 기초를 살펴봤어요. 😊
🔥 핵심 정리
✅ Numpy는 빠른 수학 연산을 위한 라이브러리
✅ Pandas는 테이블 형태 데이터를 쉽게 다룰 수 있는 라이브러리
✅ Pandas와 Numpy를 함께 사용하면 데이터 분석이 더욱 강력해짐
📌 다음 글에서는 "Pandas를 활용한 데이터 시각화 (Matplotlib & Seaborn)" 를 다뤄볼게요!
'AI와 친해지기 > AI를 직접해볼까?' 카테고리의 다른 글
[Python기초] Pandas를 활용한 데이터 시각화 (0) | 2025.02.17 |
---|---|
[Python기초] AI개발자를 위한 CSV 파일을 다루는 법 (2) | 2025.02.15 |
[Python기초] AI개발자를 위한 JSON 파일 다루기 (8) | 2025.02.14 |
[Python 기초] AI 개발자를 위한 파일 입출력(File I/O) 활용하기 (1) | 2025.02.13 |
[Python 기초] AI 개발자를 위한 클래스, 객체 지향 프로그래밍 (2) | 2025.02.12 |