본문 바로가기
이슈, 관심사/기타

[독서] 빅데이터 커리어 가이드북

by 장찐 2022. 2. 25.

 📚 책 정보 

조성준, 김현용, 박서영, 안용대, 임성연 저 | 길벗 | 2021년 11월 12일

 


✅ 데이터 엔지니어 

 

 학계에서 발표된 최신 논문의 모델의 학습 시간이 10분이라 하더라도, 실제 현업에서 이를 사용하기 위해서는 앞뒤로 전처리를 포함해서 30분이 걸리는 등 차이가 많이 발생한다. 대부분의 논문은 동일한 데이터와 성능 지표를 기준으로 성능을 높이기 때문에, 다른 데이터를 사용할 때의 성능 저하 문제는 크게 고려되지 않는다. 

 하지만 실무에서는 데이터가 자주 바뀌기 때문에 이를 고려해야한다. 즉 성능 평가 외에 서비스 개발에 대한 부분이 현업에서는 많이 고려되어야 한다. 

 

 

✅ 데이터 사이언티스트 

✔ 네이버와 같은 큰 기업들은 대부분의 분석에 필요한 데이터를 다 가지고 있으므로 별도로 수집할 필요가 없다. 직장이 보유한 데이터의 양이 방대하고 질이 좋다는 것은 데이터 사이언티스트로서 감사한 일이다. 데이터 사이언티스트로서 배울 점이 많은 회사는 활용 가능성이 높은 좋은 데이터를 많이 보유한 회사다. 

 

✔ 학교에서 배운 것과 실무 현장은 많이 다르다. 학교 공부나 논문에서는 데이터가 잘 정제되어 있고 양이 많아도 10만~100만건 정도이지만 실제 현장에서는 정제되지 않은 수억 건의 데이터를 사용한다. 또한 논문들도 주로 잘 정제된 데이터로 높은 성능을 달성한 것이기 때문에 실무에서도 같은 성능이라는 보장이 없다. 오히려 실무에서는 간단하고 전통적인 통계 기법을 선택할 때도 있다. 

 

✔ 새롭게 모델을 만들더라도 그것을 실제로 적용하기에는 어려움이 있다. 이미 좋은 성과를 내는 프로세스가 있을 때, 왜 제대로 검증되지 않은 기술을 도입해야 하는 지를 설득해야 한다. 또한 이러한 프로세스는 매우 정교하고 거대하기 때문에 일부분만 건드려서 성과를 테스트하기가 어렵다. 

 

 

✅ 채용 시 고려사항 

✔ 본인이 했던 것을 정확하게 알고있는가? 단순히 다양한 경험을 한 것 보다, 어떤 문제를 얼마나 깊이 고민했는지가 중요하다. 이력서에 어떠한 기술을 다룰 수 있다고 작성하면 그 기술의 원리를 충분히 설명할 수 있는지 질문한다. 

 

✔ 학부 과정에서는 정제된 교육과정 안에서 주어진 문제를 잘 풀 수 있는 능력을 기른다. 하지만 석사 과정은 다른 사람이 하지 않은 것, 기술적으로 해결하지 못한 주제를 찾아서 왜 해결해야하는 지 설명하고, 대안을 제시해야 한다. 따라서 문제를 정의하고 해결하는 능력을 체계적으로 기를 수 있다. 

 

 

 

✅ 빅데이터 프로젝트 진행 

📌문제 정의 

 

문제를 명확하게 잘 표현하였는가? 

ex) 지원자 중에서 누가 이직할 확률이 높은가? → 이직의 기준은? 3년/5년

 

✔ 문제를 얼마나 잘 풀어야 하는지에 대한 목표를 설정했는가 

 프로젝트 결과나 성능과 함께 투입되는 시간과 예산도 고려해야 한다. 특히 빅데이터 프로젝트는 추가 성능 개선을 실시할 경우 필요한 예산이 기하급수적으로 증가한다. 따라서 이를 고려해서 어느 정도의 성능을 목표로 정하는 것이 합리적일지를 잘 판단해야 한다. 결과물의 성능이 좋더라도 비용이 효과보다 크다면 결국 손해이다. 이렇게 정한 목표의 수준이 너무 낮다면 완수하더라도 효과가가 미미하기때문에 프로젝트 포기도 고려해야 한다. 

 

✔ 결과물을 전달받아서 사용하는 사람이 누구인가? 

프로젝트의 결과를 사용하는 사람에 따라서 원하는 분석 관점과 사용 가능한 결과의 형태가 다르기 때문에, 프로젝트의  방향이 바뀐다.

 

✔ 정의한 문제를 해결할 수 있는 자원

 문제를 해결할 수 있는 적절한 자원이 없다면, 문제의 수준을 낮추거나 빅데이터 컨설팅 기관 또는 대학 연구소와 같이 프로젝트를 진행하는 방향으로 수정해야 한다. 

 

 

 

📌배포 및 적용 

 

 사용자에 맞게끔 프로젝트의 결과를 재구성해서 전달한다. 사용자가 프로그래밍에 대한 지식이 없는 경우에는 소프트웨어 형태로, 프로그래밍 지식이 많고 높은 자유도를 원하면 코드로, 발표나 자료 공유의 목적이라면 리포트 형태로 전달해야 한다. 

 배포과정에서는 결과물을 잘 사용할 수 있도록 필요한 정보를 제공하고 교육까지 실시한다. 

 

 

 

✅ 데이터 직군별 사용 언어 

 

 

 

✅ 추가로 공부할 통계 관련 내용 

수리 통계학 

확률 분포, 표본 분포, 극한분포

 

베이지안 통계

주관적 확률 / 결정 이론 / 사전분포 / 사후분포 / 극한분포 / 베이지안 추정 / 베이지안 검정 

→ 추가로 모델 하이퍼 파라미터 탐색 시에도 Bayesian Optimization 을 사용할 수 있음 

 

 

 

댓글