KT에이블스쿨

[KT 에이블스쿨 6기]DX트랙 3-4주차 후기

코린이파린이 2024. 9. 30. 16:13

핵심 Point

1. 미니프로젝트때 협업할 수 있어서 재밌었다 기회되면 발표도 해볼 것
2. 기계적으로 따라가기보다 왜 이렇게 전처리를 거쳐야 하는지 이해하기(조인 ,groub by 중요)
3. 전처리가 데이터분석의 80%

 

3주차

기나긴 추석연휴가 끝나고 데이터다듬기(결합과 조인 가변수화 및 결측치처리)등

전처리 과정에서 필요한 개념들을 배웠다 

다른건몰라도 전처리 하려면 merge랑 groubby 조인개념이 익숙지가 않더라

CONCAT도 결합할 때 사용한다고 말씀하시던데 실제로는 JOIN을 더 많이 사용한다고 하셨다

특히 join개념은 처음에 이해하기가 강사님 말씀으로는 알겠는데, 출력되는 결과물이 쉽게 이해가 되지 않았다

그래서 혹시나 보는 사람들을 위해 간략하게 정리했다 이거 잘 알고 있어야 전처리 때 덜 고생한다..

왜 join방법을 이것을 쓰는지 이해해야 하기 때문

 

조인유형 설명 결과
inner 두 데이터프레임의 공통된 값만 결합 두 데이터프레임의 교집합
left 왼쪽 데이터프레임의 모든 값과 오른쪽 데이터프레임의 일치하는 값 왼쪽 데이터프레임에 맞춰 결합, 일치하지 않는 값은 NaN
right 오른쪽 데이터프레임의 모든 값과 왼쪽 데이터프레임의 일치하는 값 오른쪽 데이터프레임에 맞춰 결합, 일치하지 않는 값은 NaN
outer 두 데이터프레임의 모든 값 결합, 일치하지 않는 값은 NaN 두 데이터프레임의 합집합으로 결합

 

<Merge VS Concat>

특징 pd.merge() pd.concat
용도 SQL 스타일 조인 (공통 열 또는 인덱스를 기준으로 병합) 단순한 행 또는 열 결합
기준 특정 열 또는 인덱스를 기준으로 병합 축(axis)을 기준으로 단순 연결
병합 방식 inner, outer, left, right (조인 방식 선택 가능) 단순 연결 (axis=0: 행 기준, axis=1: 열 기준)
중복 허용 여부 특정 기준이 없으면 중복 제거 인덱스 중복 가능
사용 상황 서로 다른 데이터프레임에서 관련 데이터 병합 필요 여러 데이터프레임을 연결할 때 사용

 


4주 차

<1차 미니프로젝트 >

파이썬이랑 친해질 찰나에 2일간의 미니프로젝트를 진행하게 되었다

팀원분들과의 소통 중 조장님의 빠른 리딩으로 교육장예약 또한 차질 없이 진행되었다

팀원분들 성향이 I라서 살짝 걱정은 했지만, 다들 적극적으로 참여해 주셔서 발표는 못했지만

어떻게 공부해야 할지 방향성을 잡을 수 있는 의미 있는 시간이었다

 

그러나! 

 

제일 중요한 전처리 과정에서 시간이 오래 걸렸다

 

오래 걸린 원인

1. df.loc 및 groubby 파이썬 단축키등 아직 미숙

2. 기계적 흐름으로 어떻게 join 해야 할지에 대한 생각 없이 가이드라인만 따라가는 것

 

 무엇을 진행했는지 그리고 비전공자 기준 어떻게 이 프로젝트를 바라봐야 할지에 대해 기록한다 

 

무엇?

데이터프레임 형태를 우리가 알맞게 분석하기 위해 전처리

전처리한 결과(?^^)를 시각화로 표현할 수 있다면 시각화까지

 

주어진 데이터를 불러와서 여러 가지 방법으로 데이터를 

대표 사용 방법(merge, groubby, join, df.loc조건조회)

 

프로젝트를 바라봐야 하는 태도?

공부의 방향성을 정하는 시기로 보자

 

비전공자기준 파이썬 익숙지 않다면,

시각화까지 가기 어렵다

고로 다른 팀원들과 협업하면서,

내가 부족한 점과 보완할 점 파악

잘하는 분들께 많은 조언을 구하자!

그리고 첫 대면이기 때문에 프로젝트의 결과물도 중요하지만 

자주 볼 수 없으니, 팀원분들과 소통도 많이 하기! 


- 이 글을 읽는 분들을 위한 Tip -

 

1. 데이터프레임이랑 데이트 많이 해야 한다(df.loc 조회, groubby를 활용한 집계 능수능란하면 좋다)

 

2. 프로젝트 때 고생해도 꼭 리뷰를 하자 리뷰할 때 왜 이렇게 흐름이 되는지 이해를 해야 도움이 된다

 

3. 극 I라도 프로젝트기간만큼은 용기 내서 에이블러 조원분들께 말을 걸어라 

 

(다들 좋고 대단한 에이블러 분들이다)

 

1일 차

-예시데이터로 전처리하기

도메인 이해-데이터이해-변수들을 확인하며 -가이드라인 따라 전처리 진행(가변수화, 필요열 조회)

 

2일 차

1일 차와 동일하나 해당 결과에 대해 조별로 협의하여 ppt제작까지 진행

 

대구경북 대면교육장 인근 돈까스 취식(별난돈가스 감사합니다)

번외로 팀원분들과 식사하며 여러모로 서로에 대해 알 수 있었다
여기 돈가스가 가성비가 좋다

 

끝난 후 고생많이하셔서 얼굴 몰아드렸습니다 파린이 많이 알려주셔서 고맙습니다

 

프로젝트 결과

팀원분들의 적극적인 참여와 ppt까지 만들었지만, 발표는 하지 못했다

왜냐? dx트랙발표는 인기가 터지기 때문이다

 

우리 반에서 발표하신 조원분들과 전국의 에이블러님들의 발표를 들으며

아직 갈길이 멀지만, 너무 좋았다. 데이터전처리 시각화를 어떻게 설명해야 하는지에 대해 알 수 있었기 때문이다

 

 

느낀 점 및 다짐

1. 파린이 여러모로 알려주신 조원분들 진심 감사합니다

2. df랑 데이트 좀 많이 해야겠다

3. 추석 끝나고 복습 흐지부지 됐는데, 놓치지 말자

 

I'M ABLER 아자아자!!

 

PS : 끝나고 치킨집에서 반장님 덕분에 회식했는데, 너무나도 열정적이고 좋은 분들이라서, 6개월간 참 복 받았다 생각 들었다