- 데이터를 어떻게 처리하고 탐색하는지에 대한 이해가 필요
- 관련 기술과 통계와 관련한 어려운 개념 등장, 이해는 물론 수학적 해석 능력이 요구
1. 데이터 전처리
데이터의 정의 -> 데이터의 종류 -> 데이터의 정제
- 데이터 전처리를 위해 필요한 기법을 학습
- 분석 전 단계, 데이터 정제의 필요성과 과정을 이해하고, 결측값과 이상값의 처리, 변수 선택 방법, 차원축소, 파생변수와 변수 변환 방법을 학습
1-1. 데이터 정제
1-1-1 데이터에 내재된 변수의 이해
빅데이터 분석이나 전통적 통계분석을 통해 원하는 결과를 얻기 위해서는 모든 근간이 되는 자료의 이해가 필수입니다.
자료에 대한 엄밀한 정의와 관련된 내용을 다룹니다.
데이터 관련 정의
1. 데이터 (Data) : 이론을 세우는 기초가 되는 사실 또는 자료를 지칭하며, 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화, 수치화한 자료를 말한다.
2. 단위 (Unit) : 관찰되는 항목 또는 대상을 지칭한다.
3. 관측값 (Observation) : 각 조사 단위별 기록정보 또는 특성을 말한다.
4. 변수 (Variable) : 각 단위에서 측정된 특성 결과이다.
5. 원자료 (Raw Data) : 표본에서 조사된 최초의 자료를 말한다.
데이터의 종류
- 단변량 자료, 다변량자료, 질적자료, 명목자료, 서열자료, 구간자료, 시계열 자료, 횡적 자료, 종적 자료
1. 단변량자료 (Univariate Data) : 자료의 특성을 대표하는 특성 변수가 하나인 자료이다.
2. 다변량자료 (Multivariate Date) : 자료의 특성을 대표하는 특성 변수가 두 가지 이상인 자료이다.
3. 질적자료 (Qualitative Data) : 정성적 또는 범주형 자료라고도 하며 자료를 범주의 형태로 분류한다. 분류의 편의상 부여된 수치의 크기 자체에는 의미를 부여하지 않는 자료이며, 명목자료, 서열 자료 등이 질적자료로 분류됩니다.
- 명목자료 (Nominal Data) : 측정 대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료이다.
ex) 전호번호상의 국번, 지역번호 (명록자료 처리 시 사용가능 연산자는 !=, =
- 서열자료 (Ordinal Data) : 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료이다.
ex) 기록 경기의 순위 등 일반적인 순위를 나타내는 대부분의 자료를 지칭 (자료 처리 시 사용가능 연산자는 !=, =, <=, >=)
4. 수치자료 (Quantitative Data) : 정량적 또는 연속형 자료라고도 한다. 숫자의 크기에 의미를 부여할 수 있는 자료를 나타내며 구간자료, 비율자로가 여기에 속한다.
- 구간자료 (Interval Data) : 명목자료, 서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해서 변수간의 관계가 산술적인 의미를 가지는 자료이다.
ex) 온도(비율로 의미가 부여될 수 있는 자료가 아니며, 사용연산자는 !=, =, <=, >=, +, -)
- 비율자료 (Ratio Data) : 명목자료, 서열자료, 구간자료의 의미를 다 가지는 자료로서 수치화된 변수에 비율의 개념을 도입할 수 있는 자료이다.
ex) 무게 (사용연산자는 !=, =, <=, >=, +, -, X, /
5. 시계열 자료(Time Series Data) : 일정한 시간간격 동안에 수집된, 시간개념이 포함되어 있는 자료이다.
6. 횡적 자료 (Cross Sectional Data) :횡단면자료라고도 하며, 특정 단일 시점에서 여러 대상으로부터 수집된 자료이다. 즉 한 개의 시점에서 여러 대상으로부터 취합하는 자료를 말한다.
7. 종적자료 (Longitudinal Data) : 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료이다.
데이터의 종류는 앞의 내용에서 변수들의 집합인 자료의 종류와 그 특성을 동일하게 가지므로 데이터의 종류에 따라서 적용방법론이 다양하게 변화할 수 있다.
데이터의 정제
수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정
1. 데이터 정제의 필요성?
- 데이터로부터 원하는 결과나 분석을 얻기 위해서는 수집된 데이터를 분석의 도구 또는 기법에 맞게 다듬는 과정이 필요하다.
2. 정제과정을 거치지 않은 데이터의 문제점?
- 데이터 구성의 일관성이 없어 분석의 처리에 어려움이 발생합니다.
- 도출된 결과의 신뢰성이 저하됩니다.
3. 데이터 정제의 과정 (Processing)
- 다양한 매체로부터 데이터를 수집, 원하는 형태로 변환, 원하는 장소에 저장, 저장된 데이터의 활용가능성을 타진하기 위한 품질확인, 필요한 시기와 목적에 따라 사용이 원활하도록 관리의 과정이 필요합니다.
- 시스템 내, 외부에서 데이터를 수집하면 정형보다 비정형 데이터들이 많습니다. 비정형 데이터의 경우 기본적으로 구조화된 정형 데이터로의 변환을 수행하고 변환된 데이터에서 결측치나 오류의 수정 과정을 거칩니다.
- 기존 시스템 내의 데이터와 비교 분석이 필요한 경우 레거시와 통합, 변환의 과정이 발생할 수 있습니다.
구분 | 수행내용 | Process |
---|---|---|
데이터의 수집 | 데이터의 입수 방법 및 정책 결정 입수경로의 구조화 집계 (Aggregation) 저장소 결정 |
전처리 (Pre Processing 포함) |
데이터의 변환 | 데이터 유형의 변화 및 분석 가능한 형태로 가공 ETL(Extraction, Transformation, Loading) 일반화(Generalization) 정규화(Normalization) 평활화(Smoothing) |
|
데이터의 교정 | 결측치의 처리, 이상치(Outlier) 처리, 노이즈 처리 비정형데이터 수집 시 필수사항 |
|
데이터의 통합 | 데이터 분석이 용이하도록 기존 또는 유사 데이터와의 연계 통합 레거시 데이터(Legacy Data)와 함께 분석이 필요한 경우 수행 |
- 집계 (Aggregation)
데이터를 요약하거나 그룹화하여 통계적 정보를 얻는 과정으로, 데이터의 합계, 평균, 중앙값, 최빈값, 최소/최대값, 분산과 표준편차 등을 이용하여 데이터의 특성을 파악한다. - 일반화 (Generalization)
데이터 변환 과정에서 데이터의 일반적인 특성이나 패턴을 추출하는 과정이다. 데이터를 단순히 벼환하는 것 이상으로, 데이터의 복잡성을 감소시키고 중요한 특징을 강조한다. 데이터의 특징을 일반화함으로써 다양한 상황에서 일관된 분석 및 예측을 가능하게 한다. 예를 들어, 이미치 처리에서 일반화는 주어진 이미지에서 특징을 추출하여 일반적인 패턴을 학습하는 과정이며, 이를 통해 새로운 이미지에서도 유사한 패턴을 인식할 수 있다. - 정규화 (Normalization)
데이터를 일정한 범위로 조정하여 상대적인 크기 차이를 제거하고 데이터를 표준화하는 작업이다. 일반적으로 수치형 데이터에 적용하며, 데이터를 일반적인 형태로 변환하여 분석과 모델링에 적용하기쉽게 한다. Min-Max 정규화, Z-score 정규화 등과 같은 방법을 사용하며, 데이터의 상대적인 비교를 용이하게 하고, 이상치에 대한 영향을 완화하는 것이 주 목적이다. - 평활화 (Smoothing)
데이터의 변동을 줄이고, 노이즈를 제거하여 데이터의 추세나 패턴을 부드럽게 만드는 기술로 데이터 시계열 분석, 데이터 시각화, 데이터 예측 등 다양한 분야에서 사용된다. 주요 평활화 기법으로 이동평균법, 지수평활법, Savitzky-Golay 필터법 등이 있다.
- 데이터 정제의 천처리, 후처리
- 전처리 (Pre Processing)
데이터 저장 전의 처리과정으로 대상 데이터와 입수 방법 결정 및 저장방식 장소를 선정한다. - 후처리 (Post Processing)
저장 후의 처리를 지칭하며, 저장 데이터의 품질관리 등의 과정을 포함한다.
데이터 결측값 처리
데이터 분석에서 결측치는 데이터가 없음을 의미한다.
- 결측치를 임의로 제거 시 : 분석 데이터의 직접 손실로 분석에 필요한 유의수준 데이터 수집에 실패할 가능성이 발생한다.
- 결측치를 임의로 대체 시 : 데이터의 편향이 발생하여 분석 결과의 신뢰성 저하 가능성이 있다.
결측치에 대한 처리는 임의 제거, 대체의 방법을 사용함에 있어 상시의 문제를 피하는 데이터에 기반한 방법으로 처리해야 한다.
1) 결측 데이터의 종류
완전 무작위 결측 (MCAR, Missing Complertely At Random)
: 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우이다.
무작위 결측 (MAR: Missing At Random)
: 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비관측값들과는 연관되지 않은 경우이다.
비 무작위 결측 (NMAR: Not Missing At Random)
: 어떤 변수의 결측 데이터가 완전 무작위 결측 또는 무작위 결측이 아닌 결측데이터로 정의하는 즉, 결측 변수값이 결측여부와 관련이 있는 경우이다.
EX) 나이대별 (X), 성별 (Y), 체중(Z) 분석에 대한 모델링을 가정해 보면
- X, Y, Z 와 관계없이 Z가 없는 경우 : 데이터의 누락(응답 없음) -> 완전 무작위 결측 (MCAR)
- 여성 (Y)은 체중 공개를 꺼려하는 경향 : Z가 누락될 가능성이 Y에만 의존 -> 무작위 결측 (MAR)
- 젊은(X) 여성(Y)의 경우는 체중 공개를 꺼리는 경우가 더 높음 -> 무작위 결측 (MAR)
- 무거운 (가벼운) 사람들은 체중 공개 가능성이 적음 : Z가 누락될 가능성이 Z값 자체에 관찰되지 않은 값에 달려 있음 -> 비 무작위 결측 (NMAR)
2) 결측값 유형의 분석 및 대치
- 결측치의 처리를 위해서 실제 데이터셋에서 결측치가 어떤 유형으로 분류되는지 분석하고, 분석된 결과에 따라서 결측치 처리 방법의 선택이 필요하다.
- 일반적으로 결측, 무응답을 가진 자료를 분석할 때는 완전 무작위 결측하에 처리한다. 즉, 불완전한 자료는 무시하고 완전히 관측된 자료만을 표준적 분석을 시행한다. 그러나 이런 결측치가 존재하는 데이터를 이용한 분석은 다음 세 가지 고려사항이 발생하는데, 효율성, 자료처리의 복잡성, 편향 문제이다.
1. 단순 대치법 : 기본적으로 결측치에 대하여 MCAR또는 MAR로 판단하고 이에 대한 처리를 하는 방법이다.
- 완전 분석 (Completes Analysis)
불완전 자료는 완전하게 무시하고, 문석을 수행한다. 분석의 용이성을 보장하거나 효율성 상실과 통계적 추론의 타당성에 문제 발생 가능성이 있다.
- 평균 대치법 (Mean Imputation)
관측 또는 실험으로 얻어진 데이터의 평균으로 결측치를 대치해서 사용한다. 평균에 의한 대치는 효율성의 향상 측면에서 장점이 있으나 통계량의 표쥰오차가 과소 추정되는 단점이 잇다. 비조건부 평균 대치법이라고도 한다.
- 회귀 대치법 (Regression Imputation)
회귀분석에 의한 예측치로 결측치를 대치하는 방법으로 조건부 평균 대치법이라고도 한다.
- 단순 확률 대치법 (Single Stochastic Imputation)
평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법으로 Hot-Deck 방법이라고도 한다. 확률추출에 의해서 전체 데이터 중 무작위로 대치하는 방법이다.
- 최근접 대치법 (Nearest-Neighbor Imputation)
전체표분을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대치한다. 응답값이 여러 번 사용될 가능성이 단점이다.
2. 다중 대치법 (Multiple Imputation)
단순 대치법을 복수로 시행하여 통계적 효율성 및 일치성 문제를 보완하기 위하여 만들어진 방법이다.
복수 개(n개)의 단순대치를 통해 n개의 새로운 자료를 만들어 분석을 시행하고 시행결과 얻어진 통계량에 대해 통게량 및 분산 결합을 통해 통합하는 방법이다.
- 1단계 - 대치단계 (Imputation Step) : 복수의 대치에 의한 결측을 대치한 데이터를 생성한다.
- 2단계 - 분석단계 (Analysis Step) : 복수 개의 데이터셋에 대한 분석을 시행한다.
- 3단계 - 결합단계 (Combination Step) : 복수 개의 분석결과에 대한 통계적 결합을 통해 결과를 도출한다.
3. 데이터 이상값 처리
이상치 (이상값, Outlier)
데이터의 전처리 과정에 발생 가능한 문제로 정상의 범주에서 벗어난 값을 의미한다.
데이터의 수집과정에서 오류가 발생할 수도 있기 때문에 이상치가 포함될 수 있다.
이상치는 앞선 결측치와 마찬가지로 분석결과의 왜곡이 발생할 수 있으므로 처리하는 작업이 필요하다.
1) 이상치의 종류 및 발생원인
1. 이상치의 종류
- 단변수 이상치 : 하나의 데이터 분포에서 발생하는 이상치를 말한다.
- 다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치를 말한다.
2. 이상치의 발생 원인
- 비자연적 이상치 발생
입력실수
측정오류
실험오류
의도적 이상치
자료처리오류
표본 오류
- 이상치의 문제점
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
02 빅데이터 처리 기술 (0) | 2025.03.10 |
---|---|
01 빅데이터 플랫폼 (0) | 2025.03.10 |
데이터베이스의 활용? (1) | 2024.12.06 |
스키마, JSON, XML (1) | 2024.12.06 |
Section 01 빅데이터 개요 및 활용 (3) (2) | 2024.02.29 |