Untitled

단계 1: 데이터 불러오기

데이터셋: 캐글의 'The Ultimate Halloween Candy Power Ranking' 데이터셋은 가장 인기 있는 할로윈 사탕을 파악하기 위해 수집된 데이터입니다. 참가자들이 두 가지 재미있는 사이즈 캔디 중에서 받고 싶은 것을 선택하도록 하는 웹사이트를 통해 데이터를 수집했으며, 총 8,371개의 다른 IP 주소에서 26만 9천 표 이상이 모였습니다.

1️⃣ ‘File' 위젯을 열고, 다운로드한 할로윈 사탕 데이터셋을 불러옵니다.

2️⃣ 데이터가 정상적으로 불러와졌는지 'Data Table'을 통해 확인합니다.

2023-11-08 11 40 44.png

2023-11-08 11 40 12.png

단계 2: 사탕 선호도 순위 매기기

1️⃣ 'Rank' 위젯을 데이터셋에 연결하여 사탕별 선호도 순위를 확인합니다. 가장 인기 있는 사탕을 찾아보세요. 😁

2023-11-08 12 05 10.png

RReliefF 알고리즘은 데이터셋의 타겟 변수를 예측하는 데 각 특성(Feature)의 중요도를 평가하는 방법으로 사용됩니다. 이 알고리즘은 각 특성에 RReliefF 가중치를 할당하여, 해당 특성이 타겟(Target, 그림3 에선 승률(winpercent)) 변수 예측에 기여하는 정도를 수치적으로 나타냅니다.

이러한 가중치를 통해, 예측 모델을 만들 때 어떤 특성들이 가장 유의미한 영향을 미칠 수 있는지에 대한 통찰을 얻을 수 있습니다. 예를 들어, 'peanutyalmondy'와 'chocolate' 같은 특성들은 캔디를 선호하는 데 있어서 중요한 역할을 할 수 있으며, 모델 학습에 있어서 우선적으로 고려될 수 있습니다.

단계 3: 데이터 시각화 및 탐색하기

  1. 변수 간 상호작용 살펴보기:
  2. 이진 변수의 분포 살펴보기:

2023-11-08 13 29 19.png