[Python] 빅데이터분석 시각화 - 그래프 그리기 (Matplotlib) Matplotlib는 그래프를 그리는 함수를 내장하고 있는 확장 라이브러리다. matplotlib.pyplot을 import하여 해당 모듈의 각 함수를 사용해 간편하게 그래프를 만들고 변화를 줄 수 있다. 기본적으로 plot() xl-shine.tistory.com import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rc('font', family='malgun gothic') plt.rc('axes', unicode_minus=False) %matplotlib inline # jupyter notebook에서 그래프를 보기 위한 코드 weathe..
빅데이터분석👨💻
Matplotlib는 그래프를 그리는 함수를 내장하고 있는 확장 라이브러리다. matplotlib.pyplot을 import하여 해당 모듈의 각 함수를 사용해 간편하게 그래프를 만들고 변화를 줄 수 있다. 기본적으로 plot() 함수를 사용해 그래프를 그릴 수 있으며, 인자로 리스트 형식의 값을 2개(x축, y축) 받는다. plt.plot([1, 2, 3, 4]) 이렇게 하나의 리스트만 전달하게 됐을 때, 인자로 넘겨준 리스트는 y축으로 인식하고 x축은 인자로 넘겨준 리스트의 길이에 맞춰 자동 생성된다. 예시의 경우 자동 생성되는 x축 리스트는 [0, 1, 2, 3]이다. 나타나는 그래프는 다음과 같다. plt.plot([1, 2, 3, 4], [1, 4, 9, 16]) 다음과 같이 두개의 리스트를 전달..
concat() concat() 함수는 데이터프레임을 이어붙일 때 사용하는 함수이다. 인자로 다음과 같은 파라미터를 받는다. pd.concat(objects, axis=0, join=outer, ignore_index=False) objects에는 병합할 데이터 프레임을 리스트형태로 묶어서 전달해주면 된다. axis는 어떤 방향을 기준으로 병합할지 선언한다. 0이면 행, 1이면 열을 기준으로 병합하고, 비선언 시 디폴트 값으로 0이 들어간다. join은 어느 데이터 프레임을 기준으로 병합할 지 선택한다. left, outer 값을 줄 수 있으며, 비선언 시 디폴트 값으로 outer가 들어간다. ignore_index는 기존 index를 무시하고 병합한 데이터 프레임을 기준으로 index 값을 새로 지정한..
[Python] 빅데이터 분석 기초 - 필터링 (Filtering) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적인 과정은 아니지만 데이터 시각화를 진행할 xl-shine.tistory.com [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) [Python] 빅데이터 분석 기초 - 필터링 (Filtering) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적 xl-shine.tistory.com 인덱싱 된 데이터를 보기 편하게, 혹은 의도하는 수치를 보여주기 ..
[Python] 빅데이터 분석 기초 - 집계 (Aggregation) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적인 과정은 아니지만 데이터 시각화를 진행할 xl-shine.tistory.com [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) [Python] 빅데이터 분석 기초 - 필터링 (Filtering) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적 xl-shine.tistory.com 수월한 인덱싱을 위해 특정 데이터를 따로 추출하는 선행 작업이 ..
[Python] 빅데이터 분석 기초 - 필터링 (Filtering) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적인 과정은 아니지만 데이터 시각화를 진행할 xl-shine.tistory.com [Python] 빅데이터 분석 기초 - 집계 (Aggregation) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적인 과정은 아니지만 데이터 시각화를 진행할 xl-shine.tistory.com 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다..
[Python] 빅데이터 분석 기초 - 결측치 처리 (Missing Data Handling) 데이터를 분석할 때 결측치 처리는 필수 과정이다. 결측치가 존재하는 상태로는 각 컬럼별로 잡히는 통계가 달라져 분석할 때 혼란을 야기할 수 있고, 추후에 데이터 시각화를 진행했을 때 신뢰 xl-shine.tistory.com 결측치 처리 후 이상치까지 처리해야 비로소 클렌징이 끝난다. 이상치는 말그대로 '이상한' 데이터를 '정상적인' 데이터로 바꾸는 것이다. 대표적인 이상치 처리 방법에는, 범주형 변수 이상치 처리와 수치형 변수 이상치 처리가 있다. 이상치 처리 : 범주형 변수 이상치 처리 df['도로형태_대범주'].value_counts() 단일로 37918 교차로 32242 기타 4056 주차장 246 미분..
[Python] 빅데이터 분석 기초 - 이상치 처리 (Check the Outlier) [Python] 빅데이터 분석 기초 - 결측치 처리 (Missing Data Handling) 데이터를 분석할 때 결측치 처리는 필수 과정이다. 결측치가 존재하는 상태로는 각 컬럼별로 잡히는 통계가 달라져 분석할 때 혼란을 xl-shine.tistory.com 데이터를 분석할 때 결측치 처리는 필수 과정이다. 결측치가 존재하는 상태로는 각 컬럼별로 잡히는 통계가 달라져 분석할 때 혼란을 야기할 수 있고, 추후에 데이터 시각화를 진행했을 때 신뢰도 있는 그래프를 표출하기 어렵다. df = pd.read_csv('data/02_seoul_accident_clean.csv') df.info() 사용한 자료는 공공데이터 포털..