AI와 친해지기/AI를 직접해볼까?

[Python기초] AI개발자를 위한 Pandas & Numpy 기초

insight발자국 2025. 2. 16. 12:26

📊 Pandas & Numpy 기초 – 데이터 분석을 위한 필수 라이브러리 배우기

 

AI를 하려면 학습시킬 데이터를 살펴볼 줄 알아야 하고, 데이터 분석을 하려면 Pandas와 Numpy는 필수에요! 🚀

  • Pandas: 테이블 형태(엑셀처럼) 데이터를 다루기 위한 라이브러리
  • Numpy: 대량의 숫자 데이터를 빠르게 계산할 수 있는 라이브러리

이번 글에서는 Pandas와 Numpy의 기본 개념과 사용법을 배우고, 실전 데이터 분석을 준비하는 방법을 살펴볼게요! 😊


✅ 1. Pandas와 Numpy 설치하기

Pandas와 Numpy는 기본적으로 설치되어 있지 않으므로, 먼저 설치해야 합니다.

pip install pandas numpy

✅ 설치가 완료되면 아래 코드를 실행해 라이브러리가 정상적으로 작동하는지 확인하세요.

import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

📌 정상적으로 버전 정보가 출력되면 설치가 완료된 것입니다.


✅ 2. Numpy 기초 – 수학 연산을 빠르게 처리하는 라이브러리

Numpy는 수학 연산을 빠르게 처리할 수 있는 라이브러리로, 배열(Array) 연산이 핵심 기능입니다.

📌 1) Numpy 배열 생성하기

import numpy as np

# 리스트를 Numpy 배열로 변환
arr = np.array([1, 2, 3, 4, 5])
print(arr)
print(type(arr))

 출력 결과

[1 2 3 4 5]
<class 'numpy.ndarray'>

📌 Numpy 배열은 리스트와 유사하지만 속도가 훨씬 빠르며, 다양한 연산이 가능합니다.

📌 2) Numpy 기본 연산

arr = np.array([10, 20, 30, 40])
print(arr + 5)  # 각 요소에 5를 더하기
print(arr * 2)  # 각 요소에 2를 곱하기
print(arr.mean())  # 평균값 구하기

 출력 결과

[15 25 35 45]
[20 40 60 80]
25.0

📌 리스트에서는 요소별 연산이 불가능하지만, Numpy 배열은 한 번에 수학 연산이 가능합니다!


✅ 3. Pandas 기초 – 테이블 형태 데이터를 다루는 라이브러리

Pandas는 엑셀처럼 데이터를 다룰 수 있는 강력한 라이브러리입니다.

📌 1) 데이터프레임 생성하기

import pandas as pd

data = {
    "이름": ["김철수", "이영희", "박지훈"],
    "나이": [25, 30, 27],
    "직업": ["개발자", "마케팅", "디자이너"]
}

df = pd.DataFrame(data)
print(df)

 출력 결과

     이름  나이    직업
0  김철수  25   개발자
1  이영희  30   마케팅
2  박지훈  27   디자이너

📌 pd.DataFrame()을 사용하면 엑셀처럼 표 형태의 데이터를 쉽게 만들 수 있음

📌 2) CSV 파일 불러오기

Pandas를 활용하면 CSV 파일도 쉽게 읽어올 수 있습니다.

df = pd.read_csv("data.csv")
print(df.head())  # 처음 5개 행 출력

📌 df.head() 데이터를 미리보기 할 때 유용한 함수입니다!

📌 3) 특정 열/행 선택하기

print(df["이름"])  # 특정 열 선택
print(df.loc[0])   # 특정 행 선택

📌 .loc[]을 사용하면 엑셀처럼 특정 행을 쉽게 선택할 수 있습니다.


✅ 4. Pandas & Numpy 함께 활용하기

Pandas 데이터프레임에서 Numpy 연산을 함께 사용할 수 있습니다.

df["연봉"] = np.array([5000, 6000, 5500])  # 새로운 열 추가
print(df)

 출력 결과

     이름  나이    직업   연봉
0  김철수  25   개발자  5000
1  이영희  30   마케팅  6000
2  박지훈  27   디자이너  5500

📌 Pandas와 Numpy를 조합하면 데이터를 효과적으로 조작하고 분석할 수 있음!


✅ 5. 실전 연습 문제

✏️ 문제 1: 평균 나이 계산하기

📌 df에서 평균 나이를 계산하는 코드를 작성하세요.

average_age = df["나이"].mean()
print("평균 나이:", average_age)

 출력 결과

평균 나이: 27.3

✏️ 문제 2: 특정 조건을 만족하는 데이터 필터링

📌 df에서 나이가 27 이상인 사람만 출력하세요.

filtered_df = df[df["나이"] >= 27]
print(filtered_df)

 출력 결과

     이름  나이    직업
1  이영희  30   마케팅
2  박지훈  27   디자이너

✏️ 문제 3: 새로운 열 추가 후 정렬하기

📌 df에 연봉 열을 추가한 후, 연봉이 높은 순서대로 정렬하세요.

df["연봉"] = np.array([5000, 6000, 5500])
sorted_df = df.sort_values(by="연봉", ascending=False)
print(sorted_df)

 출력 결과

     이름  나이    직업   연봉
1  이영희  30   마케팅  6000
2  박지훈  27   디자이너  5500
0  김철수  25   개발자  5000

📢 6. 마무리 및 다음 학습

이 글에서는 Pandas와 Numpy를 활용한 데이터 분석 기초를 살펴봤어요. 😊

🔥 핵심 정리

 Numpy는 빠른 수학 연산을 위한 라이브러리 
 
Pandas는 테이블 형태 데이터를 쉽게 다룰 수 있는 라이브러리 
 
Pandas와 Numpy를 함께 사용하면 데이터 분석이 더욱 강력해짐

📌 다음 글에서는 "Pandas를 활용한 데이터 시각화 (Matplotlib & Seaborn)" 를 다뤄볼게요!