반응형

Brightics Studio 역시 다른 데이터 분석 툴들과 마찬가지로, 데이터 전처리 그중에서도 결측치 제거에 관련된 툴들을 제공한다. 이번 예시에서도 저번 피어슨 상관분석과 유사한 데이터를 사용했다. 지난번과 조금 다른 점은 강수량도 예제 풀이에 같이 사용한다는 점이다. 기본 전제는 다음과 같다.

 

'기온과 강수량이 전력 사용량에 미치는 상관관계'

 

https://seanpark11.tistory.com/19

 

 

주어진 데이터를 로드하고, 결측치를 찾아보기 위해서 Statistic Summary를 추가한 후 Target statisitc 중 Null Count를 클릭해서 실행시켜준다. 이 예시 데이터에서는 기온에서는 4개, 강수량에서는 573개의 결측치가 나타났다.

 

우선, 강수량의 경우는 실제로 없는 (건조한) 경우가 있기 때문에 결측치에 문제가 없다고 판단하기로 하자. 대신에, 실제로 강수량이 없었으므로 그 빈자리 대신에 0으로 채울 필요가 있다. (1)

 

그러나, 기온의 경우 값이 존재하지 않는 것은 문제가 있다고 볼 수 있는데, 아래 사례에서는 개수가 작으므로 제거하기로 결정했다. (2)

 

 

위 두가지 (1), (2) 결정을 실행에 옮겨야 하는데, 순서는 (2) -> (1)의 순서로 진행했다. (2)처럼 삭제하는 경우는 굉장히 간단한데, 'Delete Missing Data' 함수를 이용해 우리가 지우고자 하는 열만 아래 이미지처럼 설정해주면 끝이다. 

 

 

그에 비해, 바꿔주는 것은 조금은 더 번거로운 과정을 거쳐야 한다. 우선 'Replace Missing Number'를 선택해 우리가 바꿔줘야 할 열을 선택한다. 그런 다음, 우리가 채워줘야 할 값을 넣어야 하는데 우리가 지정하는 어떤 값을 넣기 위해서는 'To'를 선택해주면 된다. 

(나머지 경우들은 의미 그대로 평균, 중간값, 최소, 최대를 넣게 된다.)

 

그리고 마지막으로 Fill Holes With에 우리가 넣고자하는 0을 써주면 된다. (여기서는 default로 0.0이 설정되어 있으니까 따로 해줄 필요는 없다.) 

 

 

그리고 그 결과를 위 statistic summary를 똑같이 적용해보면, 아래와 같은 결과를 확인할 수 있다. Null Count가 모두 0이므로, 우리가 생각했던데로 잘 시행됐다고 할 수 있다.

 

 


위 내용은 모두 아래의 Brightics Studio의 Tutorial을 기반으로 작성하였습니다.

 

https://www.brightics.ai/kr/docs/ai/s1.0/tutorials/25_0_py_Create_Date_Var?type=insight

 

Brightics Studio

 

www.brightics.ai

 

반응형