본문 바로가기
반응형

Python216

Pandas를 이용한 NC 다이노스 선수 분석 지금까지 설명한 pandas 의 개념을 활용하여 NC 다이노스 선수 데이터를 활용하여 분석해보겠다. 사실 분석이라 하기엔 그렇고 간단히 살펴보겠다. NC 다이노스 데이터는 3개의 시트가 저장되어 있어서 시트 모두를 불러와야한다. 그리고 엑셀 파일이다. 따라서 코드는 data = pd.read_excel('NC Dinos.xlsx',sheet=None) nc13,nc14,nc15 = data.values() 위와 같은 코드를 사용하여 각각의 변수에 데이터 값을 불러온다. 위와 같이 연도 구분이 없으므로 연도를 컬럼을 추가한다. 그리고 13년,14년,15년 데이터를 모두 하나의 데이터프레임으로 만들어준다. for i,j in zip([2013,2014,2015],[nc13,nc14,nc15]): j['연도'.. 2020. 3. 5.
Pandas - 3 데이터를 분석하려면 csv 파일이나 excel 파일을 python에 로딩을 해야된다. 이를 위해 이번에는 data loading에 대해서 적도록 하겠다. csv파일 로딩에 대해서 알아보도록 하겠다. csv파일은 (comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 흔히 아는 엑셀과 비슷한 것이라고 생각하면 편하다. 데이터를 로딩하는 방법은 매우 쉽다. import pandas as pd pd.read_csv('파일경로/파일이름.csv') 이 형식이 가장 기본이다. jupyter notebook 작업환경이 있는 파일 내에 csv파일 있으면 파일경로를 생략하고 '파일이름.csv'만 입력해도 무관하다. 그리고 파일 경로를 모를 때는 '../../.. 2020. 2. 23.
Pandas - 2 import pandas as pd 로 시작하고 dataframe에 대해서 알아보겠다. ## DataFrame 생성 - 2차원 배열과 유사한 자료형 - 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능 - 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사 - 하나의 컬럼은 하나의 Series로서 Dataframe은 여러 개의 Series 묶음으로 구성됨 - index 특징 - row index(행 인덱스): 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명 (라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음 - column index(열 인덱스): 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음 DataFrame을 생성해보겠다. Da.. 2020. 2. 2.
Pandas - 1 이번 장에서는 간단히 pandas 라이브러리란 무엇이고 pandas의 시리즈 type에 대해서 설명하겠다. # Pandas - 데이터 처리 및 분석을 위한 라이브러리 - 대용량 데이터를 안정적이면서도 간편하게 처리 - 서로 다른 데이터타입으로 열을 구성할 수 있음 - (참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한 - 주요 기능 - 데이터 입출력: csv,excel,RDB 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용 - 데이터 가공 : 분리, 결합, 계층, 피봇 등 - 통계 분석 처리 위와 같은 특징 때문에 데이터를 분석하기 위해서는 pandas 라이브러리의 설치는 기본이라고 할 수 있다. pandas 설치는 import pandas as pd 를 첫 셀에 설치가 기본.. 2020. 1. 31.
Numpy - 6 numpy - 6 까지 올 줄은 몰랐지만 지겹던 numpy의 마지막이다. 집계함수를 마지막으로 numpy 파트를 끝내겠다. 이번 시작도 물론 import numpy as np 이다. ## Numpy 배열 연산 집계함수 - Numpy 배열에 대해 집계 함수를 적용할 때는 반드시 axis로 설정된 기준에 따라 연산 수행 - 별도로 값을 지정하지 않으면 기본값은 axis = None으로 지정 - axis - axis=None - 전체 데이터를 하나의 배열로 간주하고 집계 함수의 연산 범위를 전체 배열로 지정 - axis=0 - 열을 기준으로 동일한 열에 있는 요소를 하나의 그룹으로 묶어 집계 함수의 연산 범위로 지정 - axis=1 - 행을 기준으로 동일한 행에 있는 요소를 하나의 그룹으로 묶어 집계 함수의 .. 2020. 1. 22.
Numpy - 5 import numpy as np 는 기본으로 하고 시작하자. ## 산술연산 - 더하기: +,add() - 빼기: -, subtract() - 나누기: /, divide() - 곱하기" *, multiply() - 지수곱 표현: exp() - 제곱근: sqrt() - 로그: log() - 내적(행렬곱): dot() # 아이템: 1이상 10 미만의 1씩 증가 # 구조: 3*3 a=np.arange(1,10).reshape(3,3) # 아이템:1 # 구조 : 3*4 b=np.ones((3,3)) # 아이템: 10 이상 22미만의 1씩 증가하는 숫자 # 구조 3*4 c=np.arange(10,22).reshape(3,4) 먼저 계산을 할 a,b,c 행렬을 생성한다. a+b #out array([[ 2., 3... 2020. 1. 22.
반응형