본문 바로가기
프로젝트 및 공모전

2019년 서울시 빅데이터 공모전 - 깔끔하게 실패한 첫 공모전

by 장찐 2022. 1. 8.

◈ 공모전 개요  

공모전 포스터

주제 : 별도의 주제 제한은 없으며 서울시 빅데이터 캠퍼스의 공공데이터를 사용해서 서울시의 사회문제를 해결한다

 


◈ 진행 내용 

 학부 3학년 때 데이터 분석 공부를 시작하고 나서 처음 참여한 공모전이다. 당시 겨우 파이썬 조건문,반복문 할 줄 아는 상태였지만 일단 시작이 반이라는 생각에 공모전 참가 신청을 했다. 당시 함께 공부하던 친구와 매일 만나서 아이디어 회의를 했다. 당시에는 공공데이터가 무엇인지도 잘 몰랐지만, 우선은 창의적인 아이디어 도출을 위해서 이런저런 시도를 해보려고 했다. 최대한 기존 분석 사례와 겹치지 않으면서 유익하게 사용될 것이라고 '기대'한 주제를 알아보았고 '스마트 가로등 설치지역 제안'으로 결정했다. 

서울시, 스마트가로등 시스템 구축 기본설계 용역 최종 보고서

 스마트 가로등은 유동인구 및 날씨에 따른 효율적 에너지 사용, CCTV를 통한 방범 효과, 도로교통 정보 제공 등 복합적인 기능을 가지고 있다. 따라서 입지 선정에 여러 요소가 복합적으로 반영되어야 하고, 이 과정에서 데이터 분석을 활용할 수 있을 것이라고 판단했다.

 우리는 스마트 가로등의 범죄 예방 및 보안 효과를 강조하고자 했다. 하지만 여기서부터 문제가 발생했다. 범죄 예방을 위해서는 범죄 발생률이 높은 공간을 구체적으로 파악해야 하는데 범죄 데이터는 굉장히 민감하기 때문에 일반 공개를 하지 않는 데이터였다. 구/동 단위보다 구체적인 발생 위험 지역을 파악할 수 있어야 하는데, 데이터 접근 자체가 어려웠다. 

 

 그래서 우선은 다른 방식으로 접근해보기 위해서 사용가능한 데이터부터 찾아보자 하는 생각에 일반 가로등, 보안등, 스마트 가로등 현황에 대한 데이터를 수집했다. 근데 정부나 서울시에서 제공하는 데이터는 구마다 제공 현황이 달랐다. 아무리 찾아봐도 해당 데이터 자체를 제공하지 않는 곳도 있었고, 데이터를 제공하더라도 양식이나 입력 값이 다른 경우도 있었다. 이 때 처음 깨달았다. 빅데이터 분석을 하려고 해도 빅데이터는 고사하고 스몰데이터도 없구나... 사용가능한 양질의 데이터를 얻는 것 자체가 매우 어려운 일이라는 것을 알았다. 

구마다 제공 데이터가 다르다

 일단 공모전 설명회를 가서 아이디어를 얻어보자하는 생각에 설명회 당일에 부산에서 서울로 새벽부터 달려왔다. 게다가 사전 안내에서 빅데이터 캠퍼스에서 제공하는 데이터를 사용할 수 있다고 들었기 때문에 희망을 품고 상암동으로 향했다. 공모전 담당자 분께서 사용가능한 데이터 샘플들을 보여주셨다. 설명 들을때 까지만 해도 이리저리 분석할 볼만한 데이터가 있는 것 같았다...

 

 그런데 여기서도 예상치 못한 난관을 마주쳤다. 공모전에 반드시 빅데이터 캠퍼스의 데이터를 한 개 이상 사용해야 하는데, 해당 데이터들을 오직 빅데이터 캠퍼스 내부에서만 다운받을 수 있다는 것이다. 그냥 데이터를 다운받아서 USB나 메일로 가져가면 되는줄 알았는데, 데이터가 몇백 기가가 넘으니까 다운로드 자체가 불가능했다. 내가 가지고 있는건 128기가 짜리 USB랑 용량 제한된 구글 드라이브가 다인데...  다른 팀들은 주최측에서 안내해준 컴퓨터에서 데이터를 이리저리 둘러보고 있었는데 나와 친구는 어떻게 할 지 몰라서 어버버 하고 있었다. 담당자 분께서 'SQL로 데이터를 추출해서 FTP로 보내서 가져가시는게 빠를 거다' 라고 알려주셨는데 무슨 소리인지 도통 알아들을 수가 없었다. 이리저리 구글링해서 해결해 보려고 했지만 결국 데이터를 받아오는 것 조차 실패했다. 

 

 


◈ 후기 

Starting from scratch

 지금 생각해보면 완전히 맨 땅에 해딩이었다. 데이터 분석에 대한 기본적인 개념도 없이 프로그래밍 언어만 알면 이리저리 어떻게든 분석을 할 수 있다고 생각했던 것 같다. 

 

 가장 큰 실패요인은 공공데이터를 제공하는 목적, 기대효과, 사용 방법 등을 고려하지 못했다는 것이다. 즉, 주최측이 공모전을 통해서 얻고자 하는 바가 무엇인지, 제공한 데이터를 어떻게 사용하기를 원하는지를 제대로 파악하지 못했다. 많은 데분 현업자 분들께서 데이터 분석의 정확한 목표 설정, 분석 방향, 분석 이유를 매우 강조하신다. 우리는 이전 공모전 제출작과 겹치지 않게 해서 창의성을 돋보이게 하자는 생각에 너무 매몰되어 분석의 전체적인 방향을 잡지 못했다. 빅데이터 관련 공모전에서 단순히 기존에 안 했던 주제를 분석한다고 창의적인 것이 아니라는 것을 한참 뒤에야 깨달았다. 

 

 그런데 데이터 캠퍼스 건물 안에서만 데이터 다운로드가 가능하다고 한 것은 지금 생각해도 조금 너무하지 않았나 싶다.. 담당자분께서 꼭 오늘이 아니어도 언제든 와서 데이터를 받아가도 된다고 하셨으나, 그러면 나처럼 지방에 사는 사람들은 어떻게 하란 말인가... 원격으로라도 요청하면 데이터를 받을 수 있게 해주시지ㅠ 다시 저녁에 기차타러 서울역에 가면서 친구랑 투덜투덜 거렸던 기억이 난다. 

댓글