본문 바로가기
반응형

Python15

Pandas를 활용한 영화 평점 분석 Pandas의 활용 능력을 키우려면 많은 데이터를 다루는 것이 가장 중요하다. 비록 이 블로그에서는 기본 데이터를 다루지만 더 나아가 Kaggle의 기본 데이터셋 갖고 실습하는 것이 실력을 늘리기에 가장 좋다. 이번 글에는 영화 평점 분석을 할 것이다. 매우 거창한 것은 아니나 기본 개념 다지기에 알맞다. 먼저 데이터를 불러온다. import pandas as pd users=pd.read_csv('movie_users.csv') # 사용자 정보 users.head(3) Unnamed: 0 이라는 불순 컬럼이 생성되었으므로 Unnamed: 0을 삭제해준다. users.drop('Unnamed: 0', axis=1, inplace=True) axis=0은 행을 삭제하는 것이고, axis=1은 열을 삭제하는.. 2020. 8. 25.
R 기초 - 8 R의 기초 함수에 대해 알아보겠다. 어느 프로그램이든 if 문이나 반복문이 존재하기 마련이다. R도 그렇다. python이랑 약간 비슷하다. 먼저 if 문을 한 번 구현해보자 #if문 사용 (if, else if, else) x =0, x, NA))# NaN이 발생하지 않게 음수면 NA로 표시 # [1] NA NA NA NA NA 0.00 1.00 1.41 1.73 2.00 2.24 처음 options 값은 숫자가 얼마만큼 출력할지를 나타내는 것이다. 즉, 유효자릿수가 3자리이면 소수점 둘째자리까지 나타내겠다는 것이다. 만약 options을 주지 않으면 digits의 default값은 7이다. 그리고 메인인 ifelse 문은 (조건,T일 때 return 값,F일 때 return 값) 으로 구성되어있다. .. 2020. 7. 10.
파이썬 리뷰 http://www.yes24.com/Product/Goods/89141599 파이썬으로 쉽게 풀어쓴 자료구조 입문자들이 보다 쉽고 재미있게 자료구조를 공부하고 다양한 문제 해결에 활용할 수 있는 능력을 기르는데 초점을 맞추어 구성한 책이다. 지루하지 않고 내용을 보다 쉽게 이해할 수 있도록 적� www.yes24.com 이 책의 답지가 없으므로 이 책의 실습 문제를 선택적으로 풀어보겠다. 데이터 분석과는 크게 상관없는 것 같지만 자료구조는 프로그래밍의 기본이므로 하는 것이 좋다고 판단하여 이 책을 공부하였다. 사실 자료구조는 C로 수업을 들어서 이미 알고 있었는데 파이썬으로 구현하면 어떤 변화가 있을까라는 생각에 이 책을 구매하게 되었다. 지금까지 공부한 바로는 다른 언어에 비해 파이썬은 엄청나게 쉬운.. 2020. 7. 3.
Pandas를 이용한 NC 다이노스 선수 분석 지금까지 설명한 pandas 의 개념을 활용하여 NC 다이노스 선수 데이터를 활용하여 분석해보겠다. 사실 분석이라 하기엔 그렇고 간단히 살펴보겠다. NC 다이노스 데이터는 3개의 시트가 저장되어 있어서 시트 모두를 불러와야한다. 그리고 엑셀 파일이다. 따라서 코드는 data = pd.read_excel('NC Dinos.xlsx',sheet=None) nc13,nc14,nc15 = data.values() 위와 같은 코드를 사용하여 각각의 변수에 데이터 값을 불러온다. 위와 같이 연도 구분이 없으므로 연도를 컬럼을 추가한다. 그리고 13년,14년,15년 데이터를 모두 하나의 데이터프레임으로 만들어준다. for i,j in zip([2013,2014,2015],[nc13,nc14,nc15]): j['연도'.. 2020. 3. 5.
Pandas - 3 데이터를 분석하려면 csv 파일이나 excel 파일을 python에 로딩을 해야된다. 이를 위해 이번에는 data loading에 대해서 적도록 하겠다. csv파일 로딩에 대해서 알아보도록 하겠다. csv파일은 (comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 흔히 아는 엑셀과 비슷한 것이라고 생각하면 편하다. 데이터를 로딩하는 방법은 매우 쉽다. import pandas as pd pd.read_csv('파일경로/파일이름.csv') 이 형식이 가장 기본이다. jupyter notebook 작업환경이 있는 파일 내에 csv파일 있으면 파일경로를 생략하고 '파일이름.csv'만 입력해도 무관하다. 그리고 파일 경로를 모를 때는 '../../.. 2020. 2. 23.
Pandas - 2 import pandas as pd 로 시작하고 dataframe에 대해서 알아보겠다. ## DataFrame 생성 - 2차원 배열과 유사한 자료형 - 다차원 리스트, 딕셔너리 자료형으로 데이터 구성 가능 - 관계형 데이터베이스의 테이블 구조, excel/csv 데이터 구조와 유사 - 하나의 컬럼은 하나의 Series로서 Dataframe은 여러 개의 Series 묶음으로 구성됨 - index 특징 - row index(행 인덱스): 기본 숫자형 인덱스가 아닌 새롭게 지정한 로우명 (라벨) 인덱스를 사용해도 기본 숫자형 인덱스를 함께 사용할 수 있음 - column index(열 인덱스): 새롭게 컬럼명(라벨) 인덱스를 사용하면 기본 숫자형 인덱스는 사용할 수 없음 DataFrame을 생성해보겠다. Da.. 2020. 2. 2.
반응형