본문 바로가기
반응형

pandas4

Pandas를 활용한 영화 평점 분석 Pandas의 활용 능력을 키우려면 많은 데이터를 다루는 것이 가장 중요하다. 비록 이 블로그에서는 기본 데이터를 다루지만 더 나아가 Kaggle의 기본 데이터셋 갖고 실습하는 것이 실력을 늘리기에 가장 좋다. 이번 글에는 영화 평점 분석을 할 것이다. 매우 거창한 것은 아니나 기본 개념 다지기에 알맞다. 먼저 데이터를 불러온다. import pandas as pd users=pd.read_csv('movie_users.csv') # 사용자 정보 users.head(3) Unnamed: 0 이라는 불순 컬럼이 생성되었으므로 Unnamed: 0을 삭제해준다. users.drop('Unnamed: 0', axis=1, inplace=True) axis=0은 행을 삭제하는 것이고, axis=1은 열을 삭제하는.. 2020. 8. 25.
Pandas를 이용한 NC 다이노스 선수 분석 지금까지 설명한 pandas 의 개념을 활용하여 NC 다이노스 선수 데이터를 활용하여 분석해보겠다. 사실 분석이라 하기엔 그렇고 간단히 살펴보겠다. NC 다이노스 데이터는 3개의 시트가 저장되어 있어서 시트 모두를 불러와야한다. 그리고 엑셀 파일이다. 따라서 코드는 data = pd.read_excel('NC Dinos.xlsx',sheet=None) nc13,nc14,nc15 = data.values() 위와 같은 코드를 사용하여 각각의 변수에 데이터 값을 불러온다. 위와 같이 연도 구분이 없으므로 연도를 컬럼을 추가한다. 그리고 13년,14년,15년 데이터를 모두 하나의 데이터프레임으로 만들어준다. for i,j in zip([2013,2014,2015],[nc13,nc14,nc15]): j['연도'.. 2020. 3. 5.
Pandas - 2 import pandas as pd 로 시작하고 dataframe에 대해서 알아보겠다. ## DataFrame 생성 - 2차원 배열과 유사한 자료형 - 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능 - 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사 - 하나의 컬럼은 하나의 Series로서 Dataframe은 여러 개의 Series 묶음으로 구성됨 - index 특징 - row index(행 인덱스): 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명 (라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음 - column index(열 인덱스): 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음 DataFrame을 생성해보겠다. Da.. 2020. 2. 2.
Pandas - 1 이번 장에서는 간단히 pandas 라이브러리란 무엇이고 pandas의 시리즈 type에 대해서 설명하겠다. # Pandas - 데이터 처리 및 분석을 위한 라이브러리 - 대용량 데이터를 안정적이면서도 간편하게 처리 - 서로 다른 데이터타입으로 열을 구성할 수 있음 - (참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한 - 주요 기능 - 데이터 입출력: csv,excel,RDB 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용 - 데이터 가공 : 분리, 결합, 계층, 피봇 등 - 통계 분석 처리 위와 같은 특징 때문에 데이터를 분석하기 위해서는 pandas 라이브러리의 설치는 기본이라고 할 수 있다. pandas 설치는 import pandas as pd 를 첫 셀에 설치가 기본.. 2020. 1. 31.
반응형