본문 바로가기
파이썬/파이썬기본문법

파이썬 판다스 데이터 클리닝(Data Cleaning)

by flycoding 2024. 1. 21.
반응형

파이썬 판다스 데이터 클리닝(data cleaning) 

데이터 클리닝은 데이터 세트의 잘못된 데이터를 수정하는 것을 의미한다.

잘못된 데이터는 다음과 같다:

  • 빈 셀
  • 잘못된 형식의 데이터
  • 잘못된자료
  • 복제품

이 자습서에서는 이 모든 것을 다루는 방법에 대해 배우게 된다.

     Duration          Date  Pulse  Maxpulse  Calories
  0         60  '2020/12/01'    110       130     409.1
  1         60  '2020/12/02'    117       145     479.0
  2         60  '2020/12/03'    103       135     340.0
  3         45  '2020/12/04'    109       175     282.4
  4         45  '2020/12/05'    117       148     406.0
  5         60  '2020/12/06'    102       127     300.0
  6         60  '2020/12/07'    110       136     374.0
  7        450  '2020/12/08'    104       134     253.3
  8         30  '2020/12/09'    109       133     195.1
  9         60  '2020/12/10'     98       124     269.0
  10        60  '2020/12/11'    103       147     329.3
  11        60  '2020/12/12'    100       120     250.7
  12        60  '2020/12/12'    100       120     250.7
  13        60  '2020/12/13'    106       128     345.3
  14        60  '2020/12/14'    104       132     379.3
  15        60  '2020/12/15'     98       123     275.0
  16        60  '2020/12/16'     98       120     215.2
  17        60  '2020/12/17'    100       120     300.0
  18        45  '2020/12/18'     90       112       NaN
  19        60  '2020/12/19'    103       123     323.0
  20        45  '2020/12/20'     97       125     243.0
  21        60  '2020/12/21'    108       131     364.2
  22        45           NaN    100       119     282.0
  23        60  '2020/12/23'    130       101     300.0
  24        45  '2020/12/24'    105       132     246.0
  25        60  '2020/12/25'    102       126     334.5
  26        60    2020/12/26    100       120     250.0
  27        60  '2020/12/27'     92       118     241.0
  28        60  '2020/12/28'    103       132       NaN
  29        60  '2020/12/29'    100       132     280.0
  30        60  '2020/12/30'    102       129     380.3
  31        60  '2020/12/31'     92       115     243.0

 

데이터 집합에 일부 빈 셀(22행의 날짜, 18행 및 28행의 "열량")이 있다.

데이터 집합에 잘못된 형식("26행의 날짜")이 포함되어 있다.

데이터 집합에 잘못된 데이터(7행의 "기간")가 포함되어 있다.

데이터 집합에 중복(11행 및 12행)이 포함되어 있다.

 

이런 데이터를 파이썬 판다스에서는 어떻게 정리하는지를 살펴볼 것이다.

모두 화이팅입니다.!!!

 

출처 : 이 글의 출처는 w3schools사이트를 참고하였으며 필자가 추가하여 정리한 글입니다.

반응형

댓글