본문 바로가기

파이썬 판다스 데이터 클리닝4

파이썬 판다스 데이터 클리닝 중복 데이터 파이썬 판다스 데이터 클리닝 중복 데이터 발견 - duplicated() 중복 행은 한 번 이상 등록된 행이다. Duration Date Pulse Maxpulse Calories 0 60 '2020/12/01' 110 130 409.1 1 60 '2020/12/02' 117 145 479.0 2 60 '2020/12/03' 103 135 340.0 3 45 '2020/12/04' 109 175 282.4 4 45 '2020/12/05' 117 148 406.0 5 60 '2020/12/06' 102 127 300.0 6 60 '2020/12/07' 110 136 374.0 7 450 '2020/12/08' 104 134 253.3 8 30 '2020/12/09' 109 133 195.1 9 60 '20.. 2024. 1. 25.
파이썬 판다스 잘못된 데이터 파이썬 판다스 잘못된 데이터 "잘못된 데이터"는 "빈 셀" 또는 "잘못된 형식"일 필요가 없으며, 마치 누군가가 "1.99" 대신 "199"를 등록한 것처럼 잘못될 수 있다. 데이터 세트를 보고 잘못된 데이터를 발견할 수 있다. 왜냐하면 데이터 세트가 무엇이어야 하는지에 대한 기대가 있기 때문이다. 데이터 세트를 살펴보면 7행에서 지속 시간은 450이지만 다른 모든 행에서는 지속 시간이 30에서 60 사이임을 알 수 있다. 틀릴 필요는 없지만 이것이 누군가의 운동에 대한 데이터 세트라는 점을 고려하여 이 사람이 450분 동안 운동을 하지 않았다는 사실로 결론을 내린다. Duration Date Pulse Maxpulse Calories 0 60 '2020/12/01' 110 130 409.1 1 60 '.. 2024. 1. 24.
파이썬 판다스 빈셀 데이터 클리닝 파이썬 판다스 데이터 클리닝 - 빈셀 빈 셀은 데이터를 분석할 때 잘못된 결과를 제공할 수 있다. 파이썬 판다스 데이터 클리닝 - 행 제거 빈 셀을 처리하는 한 가지 방법은 빈 셀을 포함하는 행을 제거하는 것이다. 데이터 세트가 매우 클 수 있기 때문에 몇 개의 행을 제거해도 결과에 큰 영향을 미치지 않으므로 일반적으로 괜찮다. 빈 셀이 없는 새 데이터 프레임을 반환한다: import pandas as pd df = pd.read_csv('data.csv') print("df = pd.read_csv('data.csv') : \n", df) new_df = df.dropna() print('\nnew_df = df.dropna()\n') print(new_df.to_string()) 위의 코드를 실행하면.. 2024. 1. 22.
파이썬 판다스 데이터 클리닝(Data Cleaning) 파이썬 판다스 데이터 클리닝(data cleaning) 데이터 클리닝은 데이터 세트의 잘못된 데이터를 수정하는 것을 의미한다. 잘못된 데이터는 다음과 같다: 빈 셀 잘못된 형식의 데이터 잘못된자료 복제품 이 자습서에서는 이 모든 것을 다루는 방법에 대해 배우게 된다. Duration Date Pulse Maxpulse Calories 0 60 '2020/12/01' 110 130 409.1 1 60 '2020/12/02' 117 145 479.0 2 60 '2020/12/03' 103 135 340.0 3 45 '2020/12/04' 109 175 282.4 4 45 '2020/12/05' 117 148 406.0 5 60 '2020/12/06' 102 127 300.0 6 60 '2020/12/07' .. 2024. 1. 21.