반응형
Pandas의 Series는 데이터 분석을 위한 파이썬 라이브러리인 Pandas에서 제공하는 주요 데이터 구조 중 하나입니다. Series는 1차원 배열과 유사하지만, 인덱스를 가지는 것이 특징입니다. 이것은 데이터의 각 요소가 고유한 라벨(인덱스)과 연결되어 있음을 의미합니다.
Series의 주요 특징
- 1차원 데이터 구조: Series는 1차원 데이터 구조로, 리스트나 배열과 유사합니다.
- 인덱스: Series는 각 데이터에 대해 고유한 라벨(인덱스)을 가집니다. 기본적으로 인덱스는 0부터 시작하는 정수이지만, 사용자가 임의로 설정할 수도 있습니다.
- 데이터 유형: Series는 숫자, 문자열, 부울 등 다양한 데이터 유형을 저장할 수 있습니다.
- 자동 정렬: Pandas의 Series는 인덱스에 따라 데이터를 자동으로 정렬합니다.
Series 생성 방법
import pandas as pd
# 리스트로부터 Series 생성
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)
# 인덱스 지정
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s2)
# 딕셔너리로부터 Series 생성
s3 = pd.Series({'a': 10, 'b': 20, 'c': 30})
print(s3)
Series의 주요 메서드와 속성
index: Series의 인덱스를 반환합니다.
s2.index
values: Series의 데이터를 numpy 배열로 반환합니다.
s2.values
head(): 상위 몇 개의 데이터를 반환합니다.
s2.head(3) # 상위 3개의 데이터를 반환
tail(): 하위 몇 개의 데이터를 반환합니다.
s2.tail(2) # 하위 2개의 데이터를 반환
dtype: Series의 데이터 유형을 반환합니다.
s2.dtype
sum(), mean(), max(), min(): Series의 합계, 평균, 최대값, 최소값 등을 계산합니다.
s1.sum()
s1.mean()
s1.max()
s1.min()
Series 연산: Series 간의 연산도 가능합니다. 인덱스가 동일한 요소들끼리 연산이 이루어집니다.
s4 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s5 = pd.Series([4, 5, 6], index=['a', 'b', 'd'])
result = s4 + s5
print(result)
조건 필터링: 조건에 맞는 데이터를 필터링할 수 있습니다.
s2[s2 > 3]
Pandas의 Series는 그 자체로도 강력하지만, 여러 개의 Series를 합쳐 DataFrame을 만들거나, 다른 데이터 분석 기법과 결합해 사용할 때 더욱 유용합니다.
반응형
'파이썬 > pandas' 카테고리의 다른 글
series 의 고급 응용 (0) | 2024.08.18 |
---|