본문 바로가기

인공지능/캐글 kaggle

Kaggle Competition - Getting Start! Datasets - titanic (2)

반응형

다음은 데이터의 일부이다.

타이타닉 승선자 데이터의 일부

원래 목적 : 데이터 세트를 이용해서 타이타닉 승선자의 생존 여부를 예측하라!

고민거리..

- 이 데이터에서 어떤 인사이트를 얻어야 할까?

- 데이터는 정형 데이터이다.

- 문자 데이터와 수치 데이터로 구성되어 있다.

  • 각 데이터에 대한 도메인 값
    속성 이름 도메인 값
    survived (0 = Die, 1 = 생존
    passengerId 0~891, 단순 순열
    Pclass (1 = 1st, 2 = 2nd, 3 = 3rd) : 티켓 등급
    name (사람 이름들..)
    sex (female, male) : 성별
    age (나이들..)
    sibsp 형재 배우자 명수
    parch 아이들 부모 명수
    ticket (티켓번호들..)
    fare (요금들..)
    cabin (객실 번호들..)
    embarked (S = Southampton, Q = Queentown, C = Cherbourg), 승선 장소

 

단순 선형 회귀 모델을 사용할까?

총 12개의 특성들에 대한 수식

 

y=ax + bx + cx + dx + vx + ... + zx에 따른 생존 여부 예측 ? 

반응형