concat() concat() 함수는 데이터프레임을 이어붙일 때 사용하는 함수이다. 인자로 다음과 같은 파라미터를 받는다. pd.concat(objects, axis=0, join=outer, ignore_index=False) objects에는 병합할 데이터 프레임을 리스트형태로 묶어서 전달해주면 된다. axis는 어떤 방향을 기준으로 병합할지 선언한다. 0이면 행, 1이면 열을 기준으로 병합하고, 비선언 시 디폴트 값으로 0이 들어간다. join은 어느 데이터 프레임을 기준으로 병합할 지 선택한다. left, outer 값을 줄 수 있으며, 비선언 시 디폴트 값으로 outer가 들어간다. ignore_index는 기존 index를 무시하고 병합한 데이터 프레임을 기준으로 index 값을 새로 지정한..
jupyter
[Python] 빅데이터 분석 기초 - 필터링 (Filtering) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적인 과정은 아니지만 데이터 시각화를 진행할 xl-shine.tistory.com [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) [Python] 빅데이터 분석 기초 - 필터링 (Filtering) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적 xl-shine.tistory.com 인덱싱 된 데이터를 보기 편하게, 혹은 의도하는 수치를 보여주기 ..
[Python] 빅데이터 분석 기초 - 집계 (Aggregation) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적인 과정은 아니지만 데이터 시각화를 진행할 xl-shine.tistory.com [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) [Python] 빅데이터 분석 기초 - 필터링 (Filtering) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적 xl-shine.tistory.com 수월한 인덱싱을 위해 특정 데이터를 따로 추출하는 선행 작업이 ..
[Python] 빅데이터 분석 기초 - 필터링 (Filtering) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적인 과정은 아니지만 데이터 시각화를 진행할 xl-shine.tistory.com [Python] 빅데이터 분석 기초 - 집계 (Aggregation) [Python] 빅데이터 분석 기초 - 인덱싱 (Indexing) 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다. 필수적인 과정은 아니지만 데이터 시각화를 진행할 xl-shine.tistory.com 방대한 양의 데이터를 분석할 때 필요한 데이터만 추출하기 위해선 별도의 인덱싱이 필요하다..
[Python] 빅데이터 분석 기초 - 결측치 처리 (Missing Data Handling) 데이터를 분석할 때 결측치 처리는 필수 과정이다. 결측치가 존재하는 상태로는 각 컬럼별로 잡히는 통계가 달라져 분석할 때 혼란을 야기할 수 있고, 추후에 데이터 시각화를 진행했을 때 신뢰 xl-shine.tistory.com 결측치 처리 후 이상치까지 처리해야 비로소 클렌징이 끝난다. 이상치는 말그대로 '이상한' 데이터를 '정상적인' 데이터로 바꾸는 것이다. 대표적인 이상치 처리 방법에는, 범주형 변수 이상치 처리와 수치형 변수 이상치 처리가 있다. 이상치 처리 : 범주형 변수 이상치 처리 df['도로형태_대범주'].value_counts() 단일로 37918 교차로 32242 기타 4056 주차장 246 미분..
[Python] 빅데이터 분석 기초 - 이상치 처리 (Check the Outlier) [Python] 빅데이터 분석 기초 - 결측치 처리 (Missing Data Handling) 데이터를 분석할 때 결측치 처리는 필수 과정이다. 결측치가 존재하는 상태로는 각 컬럼별로 잡히는 통계가 달라져 분석할 때 혼란을 xl-shine.tistory.com 데이터를 분석할 때 결측치 처리는 필수 과정이다. 결측치가 존재하는 상태로는 각 컬럼별로 잡히는 통계가 달라져 분석할 때 혼란을 야기할 수 있고, 추후에 데이터 시각화를 진행했을 때 신뢰도 있는 그래프를 표출하기 어렵다. df = pd.read_csv('data/02_seoul_accident_clean.csv') df.info() 사용한 자료는 공공데이터 포털..