Untitled

탐색적 데이터 분석이란?

데이터의 특성과 구조를 파악하기 위해 다각도로 분석하는 활동을 의미합니다.

시각화를 통해 구조를 파악해 보는 것 뿐만 아니라 상관 분석과 t-검증 등 통계적 기법을 활용합니다.

탐색적 데이터 분석을 하면 예측하고자 하는 종속 변수. 즉, 타깃 변수를 예측하기 위해 어떤 속성이 영향을 미치는지 알 수 있습니다.

뇌졸중(Stroke)발병 요인 중 중요한 변수는 무엇인가?

타깃 속성이란 예측하고자 하는 속성을 의미하며 탐색적 데이터 분석을 하는 목적이 되는 변수입니다. ‘종속 변수’라고도 합니다.

타깃 속성(=종속 변수) : stroke \\ \\

타깃 변수 값 : 발병한 적 있으면 1, 아니면 0

타깃 속성(=종속 변수) : stroke \\ \\ 타깃 변수 값 : 발병한 적 있으면 1, 아니면 0

탐색적 데이터 분석을 하는 목적은 타깃 속성에 영향을 미치는 속성을 찾아 나가는 것입니다.

지금부터 한 단계씩 해보도록 하겠습니다.

데이터 불러오기

[출처: https://github.com/jasonyim2/book2/blob/main/Ch5/Orange3/healthcare-dataset-stroke-data.csv.zip](https://prod-files-secure.s3.us-west-2.amazonaws.com/626f4d21-d384-4099-88f5-a5dad3f62001/0150bf6d-350a-4f5f-95fa-430a7d296aca/healthcare-dataset-stroke-data.csv.zip)

출처: https://github.com/jasonyim2/book2/blob/main/Ch5/Orange3/healthcare-dataset-stroke-data.csv.zip

Untitled