핵심 Point
1. 미니프로젝트때 협업할 수 있어서 재밌었다 기회되면 발표도 해볼 것 |
2. 기계적으로 따라가기보다 왜 이렇게 전처리를 거쳐야 하는지 이해하기(조인 ,groub by 중요) |
3. 전처리가 데이터분석의 80% |
3주차
기나긴 추석연휴가 끝나고 데이터다듬기(결합과 조인 가변수화 및 결측치처리)등
전처리 과정에서 필요한 개념들을 배웠다
다른건몰라도 전처리 하려면 merge랑 groubby 조인개념이 익숙지가 않더라
CONCAT도 결합할 때 사용한다고 말씀하시던데 실제로는 JOIN을 더 많이 사용한다고 하셨다
특히 join개념은 처음에 이해하기가 강사님 말씀으로는 알겠는데, 출력되는 결과물이 쉽게 이해가 되지 않았다
그래서 혹시나 보는 사람들을 위해 간략하게 정리했다 이거 잘 알고 있어야 전처리 때 덜 고생한다..
왜 join방법을 이것을 쓰는지 이해해야 하기 때문
조인유형 | 설명 | 결과 |
inner | 두 데이터프레임의 공통된 값만 결합 | 두 데이터프레임의 교집합 |
left | 왼쪽 데이터프레임의 모든 값과 오른쪽 데이터프레임의 일치하는 값 | 왼쪽 데이터프레임에 맞춰 결합, 일치하지 않는 값은 NaN |
right | 오른쪽 데이터프레임의 모든 값과 왼쪽 데이터프레임의 일치하는 값 | 오른쪽 데이터프레임에 맞춰 결합, 일치하지 않는 값은 NaN |
outer | 두 데이터프레임의 모든 값 결합, 일치하지 않는 값은 NaN | 두 데이터프레임의 합집합으로 결합 |
<Merge VS Concat>
특징 | pd.merge() | pd.concat |
용도 | SQL 스타일 조인 (공통 열 또는 인덱스를 기준으로 병합) | 단순한 행 또는 열 결합 |
기준 | 특정 열 또는 인덱스를 기준으로 병합 | 축(axis)을 기준으로 단순 연결 |
병합 방식 | inner, outer, left, right (조인 방식 선택 가능) | 단순 연결 (axis=0: 행 기준, axis=1: 열 기준) |
중복 허용 여부 | 특정 기준이 없으면 중복 제거 | 인덱스 중복 가능 |
사용 상황 | 서로 다른 데이터프레임에서 관련 데이터 병합 필요 | 여러 데이터프레임을 연결할 때 사용 |
4주 차
<1차 미니프로젝트 >
파이썬이랑 친해질 찰나에 2일간의 미니프로젝트를 진행하게 되었다
팀원분들과의 소통 중 조장님의 빠른 리딩으로 교육장예약 또한 차질 없이 진행되었다
팀원분들 성향이 I라서 살짝 걱정은 했지만, 다들 적극적으로 참여해 주셔서 발표는 못했지만
어떻게 공부해야 할지 방향성을 잡을 수 있는 의미 있는 시간이었다
그러나!
제일 중요한 전처리 과정에서 시간이 오래 걸렸다
오래 걸린 원인
1. df.loc 및 groubby 파이썬 단축키등 아직 미숙
2. 기계적 흐름으로 어떻게 join 해야 할지에 대한 생각 없이 가이드라인만 따라가는 것
무엇을 진행했는지 그리고 비전공자 기준 어떻게 이 프로젝트를 바라봐야 할지에 대해 기록한다
무엇?
데이터프레임 형태를 우리가 알맞게 분석하기 위해 전처리
전처리한 결과(?^^)를 시각화로 표현할 수 있다면 시각화까지
주어진 데이터를 불러와서 여러 가지 방법으로 데이터를
대표 사용 방법(merge, groubby, join, df.loc조건조회)
프로젝트를 바라봐야 하는 태도?
공부의 방향성을 정하는 시기로 보자
비전공자기준 파이썬 익숙지 않다면,
시각화까지 가기 어렵다
고로 다른 팀원들과 협업하면서,
내가 부족한 점과 보완할 점 파악
잘하는 분들께 많은 조언을 구하자!
그리고 첫 대면이기 때문에 프로젝트의 결과물도 중요하지만
자주 볼 수 없으니, 팀원분들과 소통도 많이 하기!
- 이 글을 읽는 분들을 위한 Tip -
1. 데이터프레임이랑 데이트 많이 해야 한다(df.loc 조회, groubby를 활용한 집계 능수능란하면 좋다)
2. 프로젝트 때 고생해도 꼭 리뷰를 하자 리뷰할 때 왜 이렇게 흐름이 되는지 이해를 해야 도움이 된다
3. 극 I라도 프로젝트기간만큼은 용기 내서 에이블러 조원분들께 말을 걸어라
(다들 좋고 대단한 에이블러 분들이다)
1일 차
-예시데이터로 전처리하기
도메인 이해-데이터이해-변수들을 확인하며 -가이드라인 따라 전처리 진행(가변수화, 필요열 조회)
2일 차
1일 차와 동일하나 해당 결과에 대해 조별로 협의하여 ppt제작까지 진행
번외로 팀원분들과 식사하며 여러모로 서로에 대해 알 수 있었다
여기 돈가스가 가성비가 좋다
프로젝트 결과
팀원분들의 적극적인 참여와 ppt까지 만들었지만, 발표는 하지 못했다
왜냐? dx트랙발표는 인기가 터지기 때문이다
우리 반에서 발표하신 조원분들과 전국의 에이블러님들의 발표를 들으며
아직 갈길이 멀지만, 너무 좋았다. 데이터전처리 시각화를 어떻게 설명해야 하는지에 대해 알 수 있었기 때문이다
느낀 점 및 다짐
1. 파린이 여러모로 알려주신 조원분들 진심 감사합니다
2. df랑 데이트 좀 많이 해야겠다
3. 추석 끝나고 복습 흐지부지 됐는데, 놓치지 말자
I'M ABLER 아자아자!!
PS : 끝나고 치킨집에서 반장님 덕분에 회식했는데, 너무나도 열정적이고 좋은 분들이라서, 6개월간 참 복 받았다 생각 들었다
'KT에이블스쿨' 카테고리의 다른 글
[KT 에이블스쿨 6기]DX트랙 7주차 후기 (0) | 2024.10.29 |
---|---|
[KT 에이블스쿨 6기]DX트랙 6주차 후기 (0) | 2024.10.29 |
[KT 에이블스쿨 6기]DX트랙 5주차 후기 (0) | 2024.10.29 |
[KT 에이블스쿨 6기]DX트랙 2주차 후기 (1) | 2024.09.30 |
[KT 에이블스쿨 6기 ]DX트랙 1주차 후기 (0) | 2024.09.30 |