본문 바로가기
반응형

Python/python 기초14

Pandas를 활용한 영화 평점 분석 Pandas의 활용 능력을 키우려면 많은 데이터를 다루는 것이 가장 중요하다. 비록 이 블로그에서는 기본 데이터를 다루지만 더 나아가 Kaggle의 기본 데이터셋 갖고 실습하는 것이 실력을 늘리기에 가장 좋다. 이번 글에는 영화 평점 분석을 할 것이다. 매우 거창한 것은 아니나 기본 개념 다지기에 알맞다. 먼저 데이터를 불러온다. import pandas as pd users=pd.read_csv('movie_users.csv') # 사용자 정보 users.head(3) Unnamed: 0 이라는 불순 컬럼이 생성되었으므로 Unnamed: 0을 삭제해준다. users.drop('Unnamed: 0', axis=1, inplace=True) axis=0은 행을 삭제하는 것이고, axis=1은 열을 삭제하는.. 2020. 8. 25.
파이썬 리뷰 http://www.yes24.com/Product/Goods/89141599 파이썬으로 쉽게 풀어쓴 자료구조 입문자들이 보다 쉽고 재미있게 자료구조를 공부하고 다양한 문제 해결에 활용할 수 있는 능력을 기르는데 초점을 맞추어 구성한 책이다. 지루하지 않고 내용을 보다 쉽게 이해할 수 있도록 적� www.yes24.com 이 책의 답지가 없으므로 이 책의 실습 문제를 선택적으로 풀어보겠다. 데이터 분석과는 크게 상관없는 것 같지만 자료구조는 프로그래밍의 기본이므로 하는 것이 좋다고 판단하여 이 책을 공부하였다. 사실 자료구조는 C로 수업을 들어서 이미 알고 있었는데 파이썬으로 구현하면 어떤 변화가 있을까라는 생각에 이 책을 구매하게 되었다. 지금까지 공부한 바로는 다른 언어에 비해 파이썬은 엄청나게 쉬운.. 2020. 7. 3.
Pandas를 이용한 NC 다이노스 선수 분석 지금까지 설명한 pandas 의 개념을 활용하여 NC 다이노스 선수 데이터를 활용하여 분석해보겠다. 사실 분석이라 하기엔 그렇고 간단히 살펴보겠다. NC 다이노스 데이터는 3개의 시트가 저장되어 있어서 시트 모두를 불러와야한다. 그리고 엑셀 파일이다. 따라서 코드는 data = pd.read_excel('NC Dinos.xlsx',sheet=None) nc13,nc14,nc15 = data.values() 위와 같은 코드를 사용하여 각각의 변수에 데이터 값을 불러온다. 위와 같이 연도 구분이 없으므로 연도를 컬럼을 추가한다. 그리고 13년,14년,15년 데이터를 모두 하나의 데이터프레임으로 만들어준다. for i,j in zip([2013,2014,2015],[nc13,nc14,nc15]): j['연도'.. 2020. 3. 5.
Pandas - 3 데이터를 분석하려면 csv 파일이나 excel 파일을 python에 로딩을 해야된다. 이를 위해 이번에는 data loading에 대해서 적도록 하겠다. csv파일 로딩에 대해서 알아보도록 하겠다. csv파일은 (comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 흔히 아는 엑셀과 비슷한 것이라고 생각하면 편하다. 데이터를 로딩하는 방법은 매우 쉽다. import pandas as pd pd.read_csv('파일경로/파일이름.csv') 이 형식이 가장 기본이다. jupyter notebook 작업환경이 있는 파일 내에 csv파일 있으면 파일경로를 생략하고 '파일이름.csv'만 입력해도 무관하다. 그리고 파일 경로를 모를 때는 '../../.. 2020. 2. 23.
Pandas - 2 import pandas as pd 로 시작하고 dataframe에 대해서 알아보겠다. ## DataFrame 생성 - 2차원 배열과 유사한 자료형 - 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능 - 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사 - 하나의 컬럼은 하나의 Series로서 Dataframe은 여러 개의 Series 묶음으로 구성됨 - index 특징 - row index(행 인덱스): 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명 (라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음 - column index(열 인덱스): 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음 DataFrame을 생성해보겠다. Da.. 2020. 2. 2.
Pandas - 1 이번 장에서는 간단히 pandas 라이브러리란 무엇이고 pandas의 시리즈 type에 대해서 설명하겠다. # Pandas - 데이터 처리 및 분석을 위한 라이브러리 - 대용량 데이터를 안정적이면서도 간편하게 처리 - 서로 다른 데이터타입으로 열을 구성할 수 있음 - (참고) Numpy : 전체 배열 원소를 동일한 타입으로 제한 - 주요 기능 - 데이터 입출력: csv,excel,RDB 등 다양한 포맷의 데이터를 효율적으로 처리할 수 있는 형식을 사용 - 데이터 가공 : 분리, 결합, 계층, 피봇 등 - 통계 분석 처리 위와 같은 특징 때문에 데이터를 분석하기 위해서는 pandas 라이브러리의 설치는 기본이라고 할 수 있다. pandas 설치는 import pandas as pd 를 첫 셀에 설치가 기본.. 2020. 1. 31.
반응형