데이터 수집과정에서 발생하는 결측치(Missing Value)란?
- 분석을 위한 데이터 수집 과정에서 데이터의 일부 속성이 누락된 값
결측치(Missing Value) 처리 방법
- 중심 경향 값 넣기(평균, 중앙값, 최빈값 등)
- 랜덤 추출(분포 기반)
- Regression Imputation 회귀 삽입
- EM algorithm: 기초 Imputation - 회귀분석 - Y데이터 변형 - 회귀분석 - Y데이터 변형.. 변화량이 작을 때 까지 반복
- 해당 데이터 제외
제거법(Deletion)
- List-wise Deletion(완전제거법): 하나의 변수라도 결측치 존재시 분석 대상에서 제외
단일대체법(Single Imputation)
- 평균대체방법: 관측 자료의 평균값으로 대체, 편향된 추정치 발생시킬 수 있음
- 연역적 대체방법: 논리적 제약조건, 다른 기록에 의거하여 결측값을 논리적 유추값으로 이용하는 방법
- 일치대응대체법: 결측된 정보를 다른 조사자료로부터 얻을 수 있는 경우, 동일한 조사단위에 해당하는 다른 외부자료의 값으로 대체하는 방법
- 핫덱대체(Hot-deck): 동일한 특성 응답값 중에서 랜덤 추출하여 대체
- 회귀대체방법, 회귀분석 : 결측치가 포함되어 있는 변수를 종속변수, 다른 변수들을 독립변수로 분석회귀분석을 실시한 결과 얻은 추정치를 결측치의 대체값 사용
다중대체법(Multiple Imputation)
- 한번 이상 결측을 대체, 대체한 완전한 데이터 셋트 m(m>1)개 만들어서 모수 측정한 후 모수 추정치와 표준오차를 결합하여 모형 개발, 대체값을 구한 후 자료 분석 추정된 계수 통합
이 포스트는 IT토픽의 주요 내용과 핵심 키워드를 간략히 설명하는 것이 목적으로, 디테일한 내용에 대해서는 깊이 다루지 않습니다.
다른 글 같이 보기
2021/02/08 - [IT Contents/빅데이터와 인공지능] - 매트릭스를 통한 데이터 모델 평가 기법, 혼동행렬(Confusion Matrix)
2021/02/02 - [IT Contents/IT는 미래를 어떻게 바꿀까] - AI를 우주 탐사에 이용하는 5가지 방법
2021/02/01 - [IT Contents/IT는 미래를 어떻게 바꿀까] - 딥마인드 개발 AI가 "단백질 접힘" 예측에 성공 - 신약 개발 급진전 예상
2019/02/12 - [IT Contents/디지털 서비스 및 신기술] - 양자 컴퓨터의 기반이 되는 양자역학의 원리
728x90
'IT Contents > IT Topic' 카테고리의 다른 글
ROC Curve, 수신자 조작 특성 곡선(Receiver Operating Characteristic Curve) (0) | 2021.02.09 |
---|---|
매트릭스를 통한 데이터 모델 평가 기법, 혼동행렬(Confusion Matrix) (0) | 2021.02.08 |
[해외리뷰소개] Surface Pro X 장기간 사용 리뷰: 다른 피씨가 있다면 OK (0) | 2021.02.03 |
AI를 우주 탐사에 이용하는 5가지 방법 (0) | 2021.02.02 |
딥마인드 개발 AI가 "단백질 접힘" 예측에 성공 - 신약 개발 급진전 예상 (0) | 2021.02.01 |
최근댓글