본문 바로가기
반응형

전체 글359

Pandas를 이용한 NC 다이노스 선수 분석 지금까지 설명한 pandas 의 개념을 활용하여 NC 다이노스 선수 데이터를 활용하여 분석해보겠다. 사실 분석이라 하기엔 그렇고 간단히 살펴보겠다. NC 다이노스 데이터는 3개의 시트가 저장되어 있어서 시트 모두를 불러와야한다. 그리고 엑셀 파일이다. 따라서 코드는 data = pd.read_excel('NC Dinos.xlsx',sheet=None) nc13,nc14,nc15 = data.values() 위와 같은 코드를 사용하여 각각의 변수에 데이터 값을 불러온다. 위와 같이 연도 구분이 없으므로 연도를 컬럼을 추가한다. 그리고 13년,14년,15년 데이터를 모두 하나의 데이터프레임으로 만들어준다. for i,j in zip([2013,2014,2015],[nc13,nc14,nc15]): j['연도'.. 2020. 3. 5.
Pandas - 3 데이터를 분석하려면 csv 파일이나 excel 파일을 python에 로딩을 해야된다. 이를 위해 이번에는 data loading에 대해서 적도록 하겠다. csv파일 로딩에 대해서 알아보도록 하겠다. csv파일은 (comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 흔히 아는 엑셀과 비슷한 것이라고 생각하면 편하다. 데이터를 로딩하는 방법은 매우 쉽다. import pandas as pd pd.read_csv('파일경로/파일이름.csv') 이 형식이 가장 기본이다. jupyter notebook 작업환경이 있는 파일 내에 csv파일 있으면 파일경로를 생략하고 '파일이름.csv'만 입력해도 무관하다. 그리고 파일 경로를 모를 때는 '../../.. 2020. 2. 23.
ADP(데이터 분석 전문가) 필기 데이터 분석 전문가 필기 시험은 ADsP(데이터 분석 준전문가) 시험을 통과한 후 시험을 치를 자격이 부여된다. (비전공자, 학생 기준). 데이터 분석 전문가 필기 시험은 준전문가 3과목에서 2과목 즉, 데이터 처리 기술의 이해 파트와 데이터 시각화 파트가 추가되어 5과목을 보게 된다. 그만큼 양이 어마어마하다. 특히 데이터 처리 기술 부분은 비전공자로써 생소하고 암기할 부분이 많아 가장 많은 시간을 소요하게 되었다. 또한 시각화 기술도 너무 많아서 10문제 대비 공부할 양이 너무 많다. 거기에 ADsP에서 시험과목이었던 데이터 분석 파트에서도 새로운 시험 범위 (ex. SVM, Lasso 회귀) 등이 추가되어 확실히 공부할 양이 많은 시험이라고 할 수 있다. 또한 ADsP와 다르게 서술형 시험도 존재하.. 2020. 2. 10.
Pandas - 2 import pandas as pd 로 시작하고 dataframe에 대해서 알아보겠다. ## DataFrame 생성 - 2차원 배열과 유사한 자료형 - 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능 - 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사 - 하나의 컬럼은 하나의 Series로서 Dataframe은 여러 개의 Series 묶음으로 구성됨 - index 특징 - row index(행 인덱스): 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명 (라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음 - column index(열 인덱스): 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음 DataFrame을 생성해보겠다. Da.. 2020. 2. 2.
Pandas - 1 이번 장에서는 간단히 pandas 라이브러리란 무엇이고 pandas의 시리즈 type에 대해서 설명하겠다. # Pandas - 데이터 처리 및 분석을 위한 라이브러리 - 대용량 데이터를 안정적이면서도 간편하게 처리 - 서로 다른 데이터타입으로 열을 구성할 수 있음 - (참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한 - 주요 기능 - 데이터 입출력: csv,excel,RDB 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용 - 데이터 가공 : 분리, 결합, 계층, 피봇 등 - 통계 분석 처리 위와 같은 특징 때문에 데이터를 분석하기 위해서는 pandas 라이브러리의 설치는 기본이라고 할 수 있다. pandas 설치는 import pandas as pd 를 첫 셀에 설치가 기본.. 2020. 1. 31.
Numpy - 6 numpy - 6 까지 올 줄은 몰랐지만 지겹던 numpy의 마지막이다. 집계함수를 마지막으로 numpy 파트를 끝내겠다. 이번 시작도 물론 import numpy as np 이다. ## Numpy 배열 연산 집계함수 - Numpy 배열에 대해 집계 함수를 적용할 때는 반드시 axis로 설정된 기준에 따라 연산 수행 - 별도로 값을 지정하지 않으면 기본값은 axis = None으로 지정 - axis - axis=None - 전체 데이터를 하나의 배열로 간주하고 집계 함수의 연산 범위를 전체 배열로 지정 - axis=0 - 열을 기준으로 동일한 열에 있는 요소를 하나의 그룹으로 묶어 집계 함수의 연산 범위로 지정 - axis=1 - 행을 기준으로 동일한 행에 있는 요소를 하나의 그룹으로 묶어 집계 함수의 .. 2020. 1. 22.
반응형