Untitled

FIFA 데이터 군집화

FIFA 데이터

2015년부터 2022년까지의 FIFA 축구 선수에 대한 데이터로 국적, 클럽, 생년월일, 급여, 키, 몸무게 등과 같은 플레이어 개인 데이터와 Club Position, Ball Control, Strength와 같은 속성을 갖는 활용도 높은 데이터입니다.

FIFA 22 complete player dataset

군집화란?

군집화(Clustering)는 정답이 없는 데이터로 학습을 하는 비지도 학습(Unsupervised Learning)의 한 형태로, 유사한 특성을 가진 데이터를 같은 그룹으로 묶는 작업을 의미합니다. 각 군집의 특성을 해석해 봄으로써 군집화를 통해 데이터를 더욱 깊게 이해하거나 의사 결정을 지원할 수 있습니다. 군집화는 기업에서 개별 소비자나 기존 고객의 데이터를 바탕으로 고객 마케팅 전략을 수립할 때 사용할 수 있습니다.

군집화의 주요 알고리즘

  1. K-Means Clustering: 가장 널리 사용되는 군집화 알고리즘 중 하나로 K개의 클러스터를 형성하며, 각 데이터 포인트는 가장 가까운 중심점(Centroid)에 할당됩니다. ⭐**오늘 사용하는 알고리즘**
  2. Hierarchical Clustering: 트리 형태의 계층적 구조를 만들어 나가는 군집화 방법
  3. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): 밀도 기반의 군집화 방법으로, 특정 공간 내 데이터 밀도가 높은 부분을 클러스터로 묶음

오렌지3를 이용한 군집화 과정

1. 데이터 전처리

⬆️파일 다운로드 ⬆️

⬆️파일 다운로드 ⬆️

우선 22년도의 플레이어 데이터를 열어 각 속성이 어떤 값을 갖는지 의미를 파악합니다. 드리블과 체력과 같은 능력에 대한 수치 데이터를 위주로 군집화를 진행하기 위해 플레이어 URL과 플레이어 해시태그, 생년월일 등 군집화에 불필요한 열은 제거하였습니다.