KT에이블스쿨

[KT 에이블스쿨 6기]DX트랙 8주차 후기(3차 미니 프로젝트 포함)

코린이파린이 2024. 11. 26. 15:16

어려웠던 지도학습 머신러닝에 이은 비지도 학습 start

 

기본적인 머신러닝 지도학습에이어서 비지도학습에 대해서 배웠습니다

강사님께서 자세히 그리고 친절히 알려주셨지만, 처음 배우는 개념이고 특히 차원에 대한 개념이 익숙지가 않았기에

이해하는데 시간이 걸렸습니다. 처음 해당 개념을 공부하는 분들도 공부할때의 어떤 접근방식으로 접근해야 하는지에 

도움이 되면 좋을 것 같아 후기 남깁니다.

 

비지도학습을 하기전 항상 데이터기반 비즈니스문제해결방법론에 대한 흐름을 숙지해야 하므로 나의 말로 해당 흐름을 정리했었다

각 단계별로 필요한 작업에 대하서는 잊지 않아야 겠다


CRISP - DM (MADE BY ME)

 

핵심 point 

1. 실제 지도학습을 하는 경우다 실무에서는 target이 주어지지 않은 상황에서 지도학습으로 전환해야 하는 경우가 많다! 
2. 실무에서는 시장세분화를 위해 Clustering 기법을 많이 사용한다
3. 각 기법들을 숙지하기 위해서는 해당 기법들이 어느 분야에 작용하고 사용하는 목적이 무엇인지 생각하며 이해해야합니다

 

기본 개념 (차원축소, 클러스터링, DBSCAN, 이상탐지)

개념 핵심 내용 주요 활용 분야 학습 시 숙지하기 필요한 노력
차원 축소 고차원의 데이터를 저차원으로 변환하여 데이터의 중요한 구조를 유지하면서 시각화하거나 계산 효율성을 높이는 기법. 대표적 방법: PCA, t-SNE, UMAP 데이터 시각화, 노이즈 제거, 특징 선택, 데이터 전처리 - PCA, t-SNE, UMAP 알고리즘 학습
- 고차원 데이터셋(예: 이미지, 텍스트)의 시각화 실습
- Python 라이브러리 활용 연습 (e.g., scikit-learn, seaborn)
T_SNE 고차원의 데이터를 2D 또는 3D 공간으로 비선형 차원 축소를 통해 변환하며, 특히 데이터의 지역적 구조를 잘 시각화함. 데이터 포인트 간 유사도를 보존. 이미지 및 텍스트 데이터 시각화, 군집 결과 시각화, 고차원 데이터 탐색 - t-SNE의 비선형 방식 및 perplexity, learning rate 등의 파라미터 이해
- 데이터 분포 변화를 비교하며 결과 해석 연습
- 다양한 시각화 도구 활용 (e.g., matplotlib, Plotly)
클러스터링 데이터를 사전 라벨 없이 그룹화하여 유사한 특성을 가진 데이터끼리 묶는 기법. 대표적 알고리즘: K-Means, Hierarchical Clustering, DBSCAN 고객 세분화, 이미지 분류, 문서 군집화, 생물학적 데이터 분석 - K-Means 및 계층적 클러스터링 알고리즘 학습
- 다양한 거리 측정법(e.g., 유클리드 거리, 코사인 유사도) 실험
- 데이터 군집화 평가 지표 학습 (e.g., 실루엣 점수)
DBSCAN 밀도 기반 클러스터링으로, 특정 밀도 이상인 데이터를 하나의 클러스터로 그룹화하며 노이즈 데이터를 효과적으로 분리. 이상 탐지, 공간 데이터 분석 (예: 지도 데이터), 고르지 않은 분포의 데이터 군집화 - DBSCAN 알고리즘 수식과 파라미터(Epsilon, MinPts) 이해
- 노이즈 포함 데이터셋 실습
- 데이터 분포 시각화 및 클러스터링 평가 연습
이상 탐지 정상 데이터의 패턴과 크게 벗어나는 데이터를 탐지하는 기술. 밀도 기반, 통계 기반, 머신러닝 기반 방법 사용 금융 사기 탐지, 네트워크 침입 탐지, 의료 진단 (이상 징후 탐지), 장비 고장 예측 - 밀도 기반 이상 탐지 (e.g., DBSCAN, LOF) 실습
- 통계적 방법 (e.g., Z-score, IQR) 이해
- 이상 탐지 데이터셋 실습 (e.g., KDD Cup, Anomaly Detection Datasets)

 

-특히 나는 클러스터링을 할 때, 클러스터링의 적정 K를 찾아가는 과정이 처음이 쉽게 와닿지가 않았습니다.

 

기본절차 k 개수 지정을 하고 무작위로 선택된 중심적 그리고 임의로 결정된 중심점과 각 점간 거리 계산해서 가장 가까운 중심점의 cluster로 선택된다고 하지만 사실 이해가 안돼서 편하게 이해하기 위해  엘보우기법을 적용해서 그래프에서 팔꿈치 형태를 나타내는 점을 찾고 실루엣계수와 같이 평가해서 찾는다는 걸로 이해했습니다  

팔꿈치처럼 k = 3-5 부근이 적정 개수라는 것을 알 수 있다, 실루엣점수를 통해서도 확인할 수 있는데 중요한 건 k가 2개 이상이어야 한다는 것 

 

실루엣계수 그래프

실루엣 계수는 클러스터의 품질을 평가하기 위해 사용하는 지표 실루엣 계수는 -1에서 1 사이의 값을 가지며 해당 그래프 같은 경우는  k=5 부근에서 적합하다는 것을 나타낸다. 찾아가는 원리는 잘 모르겠지만 요 두 가지로 적정한 것을 찾으면 된다!

 


3차 미니 프로젝트(머신러닝 덩어리 친구들)

활용 개념 : 머신러닝 지도학습, 비지도학습(클러스터링)

 

각 개념들을 활용해서 3차 미니프로젝트를 진행했는데, 팀원분들은 뚝딱뚝딱 다들 잘 만드셔서 너무나 대단하게 느껴졌다.

반면, 아직 익숙지 않던 나는 시간이 꽤나 오래 걸렸지만, 이번 프로젝트를 계기로 기존의 공부법에서 제대로 공부하기 위해

잘하는 분들께 많이 물어봤다. 특히 공모전 스터디 때 조장님께 어떻게 공부해야 할지 고민이 많이 되었지만, 이야기를 나누면서

자신감도 얻을 수 있었고, 자신감급하락.. 되었을 때에도 옆에서 응원해 주고 잘 알려주셔서 너무나 감사했다.

다들 수업 듣고 양도 많아서 힘들 텐데 감사한 에이블러들이 많아서 힘들지만 프로젝트 내내 배울 수 있어서 좋았다

공모전 스터디 조장님께 너무나 고마웠다

 


느낀 점

1. 머신러닝 모델이 너무 많지만 각각의 개념들을 다시 한번 생각해 보고 특히 모델별로 필요한 처리 조건

2.X가 너무 많을 때 비지도학습기법인 PCA를 배웠지만, 주도적으로 학습을 통해 다른 기법으로도 가능한다는 것을 알게 되었다

만약 답이 주어진(실제값 Y가 주어진다면 LDA기법을 활용할 수도 있다!)

3. 머신러닝 너무나 양도 많고 방대했지만, 머신러닝을 통해 feature들을 어떻게 다루어야 하는지 많이 고민해 볼 수 있어서 좋았다

 

-에이블스쿨 전처리부터 머신러닝까지 상당히 이번에 힘들지만 그래도 아자아자!! 포기하지 않을 거다!-