데이터 수집과정에서 발생하는 결측치(Missing Value)란?

  • 분석을 위한 데이터 수집 과정에서 데이터의 일부 속성이 누락된 값

 

결측치(Missing Value) 처리 방법

  • 중심 경향 값 넣기(평균, 중앙값, 최빈값 등)
  • 랜덤 추출(분포 기반)
  • Regression Imputation 회귀 삽입
  • EM algorithm: 기초 Imputation - 회귀분석 - Y데이터 변형 - 회귀분석 - Y데이터 변형.. 변화량이 작을 때 까지 반복
  • 해당 데이터 제외

제거법(Deletion)

  • List-wise Deletion(완전제거법): 하나의 변수라도 결측치 존재시 분석 대상에서 제외

단일대체법(Single Imputation)

  1. 평균대체방법: 관측 자료의 평균값으로 대체, 편향된 추정치 발생시킬 수 있음
  2. 연역적 대체방법: 논리적 제약조건, 다른 기록에 의거하여 결측값을 논리적 유추값으로 이용하는 방법
  3. 일치대응대체법: 결측된 정보를 다른 조사자료로부터 얻을 수 있는 경우, 동일한 조사단위에 해당하는 다른 외부자료의 값으로 대체하는 방법
  4. 핫덱대체(Hot-deck): 동일한 특성 응답값 중에서 랜덤 추출하여 대체
  5. 회귀대체방법, 회귀분석 : 결측치가 포함되어 있는 변수를 종속변수, 다른 변수들을 독립변수로 분석회귀분석을 실시한 결과 얻은 추정치를 결측치의 대체값 사용

다중대체법(Multiple Imputation)

  • 한번 이상 결측을 대체, 대체한 완전한 데이터 셋트 m(m>1)개 만들어서 모수 측정한 후 모수 추정치와 표준오차를 결합하여 모형 개발, 대체값을 구한 후 자료 분석 추정된 계수 통합

다중대체법(Multiple Imputation)의 원리

 

이 포스트는 IT토픽의 주요 내용과 핵심 키워드를 간략히 설명하는 것이 목적으로, 디테일한 내용에 대해서는 깊이 다루지 않습니다.

 

다른 글 같이 보기

2021/02/08 - [IT Contents/빅데이터와 인공지능] - 매트릭스를 통한 데이터 모델 평가 기법, 혼동행렬(Confusion Matrix)

2021/02/09 - [IT Contents/빅데이터와 인공지능] - ROC Curve, 수신자 조작 특성 곡선(Receiver Operating Characteristic Curve)

2021/02/02 - [IT Contents/IT는 미래를 어떻게 바꿀까] - AI를 우주 탐사에 이용하는 5가지 방법

2021/02/01 - [IT Contents/IT는 미래를 어떻게 바꿀까] - 딥마인드 개발 AI가 "단백질 접힘" 예측에 성공 - 신약 개발 급진전 예상

2019/02/12 - [IT Contents/디지털 서비스 및 신기술] - 양자 컴퓨터의 기반이 되는 양자역학의 원리

2019/02/19 - [IT Contents/CA+OS] - 캐시 메모리 관련 메커니즘 한눈에 보기

728x90
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기