단계 1: 데이터 불러오기
데이터셋: 캐글의 'The Ultimate Halloween Candy Power Ranking' 데이터셋은 가장 인기 있는 할로윈 사탕을 파악하기 위해 수집된 데이터입니다. 참가자들이 두 가지 재미있는 사이즈 캔디 중에서 받고 싶은 것을 선택하도록 하는 웹사이트를 통해 데이터를 수집했으며, 총 8,371개의 다른 IP 주소에서 26만 9천 표 이상이 모였습니다.
1️⃣ ‘File' 위젯을 열고, 다운로드한 할로윈 사탕 데이터셋을 불러옵니다.
2️⃣ 데이터가 정상적으로 불러와졌는지 'Data Table'을 통해 확인합니다.
단계 2: 사탕 선호도 순위 매기기
1️⃣ 'Rank' 위젯을 데이터셋에 연결하여 사탕별 선호도 순위를 확인합니다. 가장 인기 있는 사탕을 찾아보세요. 😁
RReliefF 알고리즘은 데이터셋의 타겟 변수를 예측하는 데 각 특성(Feature)의 중요도를 평가하는 방법으로 사용됩니다. 이 알고리즘은 각 특성에 RReliefF 가중치를 할당하여, 해당 특성이 타겟(Target, 그림3 에선 승률(
winpercent
)) 변수 예측에 기여하는 정도를 수치적으로 나타냅니다.
peanutyalmondy
: 0.341의 가중치를 가지며, 이 데이터셋에서 가장 중요한 특성으로 평가되었습니다.chocolate
: 0.326의 가중치로 두 번째로 중요한 특성입니다.sugarpercent
: 0.271의 가중치를 가지며, 세 번째로 중요한 특성으로 나타납니다.fruity
,pricepercent
,bar
,hard
,caramel
,crispedricewafer
, **nougat
**는 그 다음으로 중요한 특성들을 나타냅니다.이러한 가중치를 통해, 예측 모델을 만들 때 어떤 특성들이 가장 유의미한 영향을 미칠 수 있는지에 대한 통찰을 얻을 수 있습니다. 예를 들어, 'peanutyalmondy'와 'chocolate' 같은 특성들은 캔디를 선호하는 데 있어서 중요한 역할을 할 수 있으며, 모델 학습에 있어서 우선적으로 고려될 수 있습니다.
단계 3: 데이터 시각화 및 탐색하기