코퍼스는 언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서 언어의 본질적인 모습을 총체적
으로 드러내 보여줄 수 있는 자료의 집합을 뜻한다(출처: 위키백과). 이는 연구자나 데이터 과학자가
특정 목적을 위해 수집한 대량의 텍스트 문서들을 포함할 수 있으며, 이 데이터는 언어학적 연구, 정
보 검색, 기계 학습 모델 훈련 등 다양한 용도로 사용된다.
텍스트 마이닝은 코퍼스에 포함된 텍스트 데이터로부터 유용한 정보를 추출하고, 패턴을 발견하며,
지식을 도출하는 분석 과정이다. 이 과정에는 데이터 전처리(토큰화, 정규화, 불용어 제거 등), 데이터
탐색(워드 클라우드, 빈도 분석 등), 고급 분석(감성 분석, 토픽 모델링, 품사 태깅 등) 등이 포함된다.
코퍼스와 텍스트 마이닝의 관계를 살펴보면, 코퍼스는 텍스트 마이닝의 분석 대상이 되는 원시 데이
터의 집합으로, 텍스트 마이닝은 이 코퍼스를 분석하여 유의미한 결과를 도출해 낸다. 즉, 코퍼스는 텍스트 마이닝을 수행하기 위한 원료와 같으며, 텍스트 마이닝은 이 원료로부터 가치 있는 정보를 추출하는 공정이라고 볼 수 있다. 따라서, 텍스트 마이닝의 성공은 고품질의 코퍼스 구축에서 시작되며,
이 두 요소는 효과적인 언어 데이터 분석을 위해 서로 의존적인 관계에 있다고 할 수 있다.
캐글 사이트에서 'BTS Lyrics and Spotify Data'라는 가사 데이터셋을 다운로드한다.
<aside> ✔️ 이 데이터셋은 Genius와 Big Hit에서 가져온 데이터를 사용하여 비공식적으로 만들어졌다. BTS의 24개 앨범에서 비롯된 트랙들에 대한 정보를 담고 있으며, 각 트랙을 고유하게 식별할 수 있는 숫자 ID, 앨범의 제목, 발매 날짜, 트랙 순서, 트랙 제목(한국어 및 영어), 영어 번역 가사 등을 포함한다. 또한, 숨겨진 트랙, 리믹스 여부, 특별 참여 아티스트, 수행 멤버, 트랙이 이전에 발매된 적이 있는지, 트랙의 언어, 전체 버전의 존재 여부 등에 대한 정보도 제공된다. 이 데이터를 통해 BTS의 음악과 가사에 담긴 메시지를 분석할 수 있으며, 특히 영어로 번역된 가사를 통해 음악이 전달하고자 하는 바를 더 깊이 이해할 수 있다.
</aside>