본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

'빅 데이터로 나무 문제 해결' 뉴욕 시의 사례

OSS 게시글 작성 시각 2013-06-10 18:21:29 게시글 조회수 4981

2013년 06월 7일 (금)

ⓒ CIO Korea, Thor Olavsrud | CIO


콘크리트와 유리로 이루어진 이 도시 정글 뉴욕 시. 얼핏 이해하기 어렵겠지만, 뉴요커들은 나무를 아주 좋아한다. 먼 데서 온 관광객들이야 타임스퀘어 광장으로 떼지어 몰려 할 것이다. 그러나 뉴요커들은 공원이야 말로 뉴욕의 심장이며 영혼이라고 생각한다.



맨하탄의 센트럴 파크, 브룩클린의 프로스펙트 파크, 퀸즈의 플러싱 메도스 코로나 파크, 브롱스의 밴 코트랜드 파크, 스태튼 아일랜드의 그린벨트는 물론 이들 5개 구역 곳곳을 장식한 녹지들과 수백 개의 소규모 공원 모두 여기에 속한다. 물론, 길거리를 따라 길게 늘어선 가로수도 빼놓을 수 없다.


전부 합쳐서 뉴욕 시에는 약 250만 그루의 나무가 있다. 뉴욕 시민들은 나무를 좋아하지만, 뉴욕 시 공원 관리소(City of New York Parks & Recreation) 입장에서는 나무가 큰 골칫거리가 아닐 수 없다. 하지만 빅 데이터가 해답을 제시했다.




데이터카인드(DataKind)의 데이터 대사(data ambassador)인 브라이언 데일산드로는 뉴욕 시 공원 관리소에서 보내오는 나무 가지치기 관련 데이터에 대한 데이터다이브(DataDive) 행사를 담당한 인물이다.


사실 이 문제는 비단 돈 때문만은 아니다. 사람의 목숨이 달려 있는 일이기도 하다. 2009년에서 2010년 사이에 약 11개월 동안 센트럴 파크에서만 4명의 행인이 떨어지는 나뭇가지에 부딪혀 목숨을 잃거나 부상을 당했고, 그 중에는 2010년 6월 나뭇가지에 깔려 목숨을 잃은 생후 6개월의 여아도 있었다.


그보다 1년 전쯤에는 센트럴 파크의 한 떡갈나무에서 100파운드(약 45kg-역주)에 달하는 나뭇가지가 떨어지는 바람에 한 37세 구글 소프트웨어 엔지니어의 두개골에 금이 가고 척추까지 손상된는 사건이 있었다.


수목 전문가들은 나무에 가지치기 및 기타 작업을 해 주는 것이 나무를 더욱 건강하게 하고 악천후를 잘 견딜 수 있게 하며 나무로 인한 재산 피해나 부상, 인명 피해를 막을 수 있다고 설명한다. 그러나 이는 상식으로만 알려져 있을 뿐, 이를 뒷받침 할 연구 결과나 데이터는 아직까지 없다고 브라이언 데일산드로는 말했다.


그는 미디어6디그리(media6degrees, m6d) 머신 학습 기반 광고 프로바이더 데이터 사이언스(Data Science)부서의 부대표이며 자원봉사를 희망하는 데이터 사이언티스트와 빅 데이터 관련 문제를 해결하고자 하는 비영리 단체를 연결해주는 데이터카인드의 데이터 대사이기도 하다.


기계학습 레버리징 기술에서 인과적 의문에 대한 해답을 찾다
“수년 전, 뉴욕 시에서는 도시 수목을 좀더 잘 관리하기 위해 프로그램을 구성한 적이 있다"고 데일산드로는 말했다. 이 프로그램은 정기적인 가지치기 및 관리 스케줄을 통해 폭풍우나 강풍으로 인한 피해를 줄이는 것이 목표였다.


수년 간, 관련 부처에서는 어느 구역 나무들이 가지치기를 했고, 가지치기한 나뭇가지를 제거하기 위해 몇 번이나 직원을 보내야 했는지 등에 대한 기록을 보관해왔다.


이들은 이 모든 데이터로 완전무장하고 데이터카인드를 찾아와 다음과 같이 물었다. “이번 해에 나무를 가지치기 해주면, 다음 해에는 나무로 인해 입는 피해 횟수가 줄어들까요?”


경험 많은 광고 전문가나 애널리틱스 전문가라면 이 질문이 ‘인과적 의문(causal question)’임을 눈치챘을 것이다. 인과 분석(causal analysis)는 정식 실험 없이 행하기에는 아주 어려운 분석에 속한다.


데일산드로는 또 이 문제를 대상으로 A/B테스트를 진행하는 것은 사람의 목숨을 가지고 실험을 하는 것과 다를 바 없기 때문에 불가능 하다고 지적했다.


하지만 제대로 된 데이터만 있다면 통계학적으로 실험을 재구성해 낼 수는 있다고 데일산드로는 말했다. 그는 광고 업계에서 쌓아온 경험을 통해 이에 필요한 기술을 얻었다. 몇 년 전, 데일산드로와 m6d의 그의 팀은 인상 로그(impression logs)를 분석해 파급 효과(causal impact)를 추측하는 방법을 알아냈던 바 있다.


하지만 뉴욕 시의 수목 문제에 접근하는 건 그렇게 단순한 일이 아니었다. 그 동안 아무리 많은 자료를 모아 놓았다고는 해도, 어디까지나 보고하기 위한 목적의 자료 수집이었지 행동으로 옮기기 위한 자료 수집이 아니었기 때문이다.


데이터 수집이 핵심
“시에서 모은 데이터는 전혀 유기적이지 않았다. 한마디로, 데이터를 기록할 당시 이들을 하나로 합치는 것에 대해서는 생각해 본 적이 없는 것이다"라고 데일산드로는 회고했다.


예를 들어, 이들 데이터는 단위 크기(granularity)가 전부 달랐다. 과거 가지치기 작업에 대한 데이터는 블록 별로 기록한 반면, 가지치기 잔해를 청소한 것에 대한 데이터는 주소 단위로 기록된 식이었다.


“여기서 가장 큰 문제는 분석의 가장 기초적인 단위를 무엇으로 할 지 정하는 것이다. 통계학자는 세상을 여러 개체들로 나눈다. 단열(single row)에 상응하는 것은 무엇일까? 이들은 각 나무 한 그루에 특정 감정인을 두지 않는다. 할 수 있는 한 자세한 단위로 데이터를 확보하는 것, 그러면서도 넓은 범위의 데이터를 손에 넣는 것, 그리고 그 둘 사이의 균형을 맞추는 일이다” 라고 데일산드로는 말했다.


궁극적으로, 이들은 도시의 한 블록을 기본 단위로 정하는 데 합의했다. m6d의 CEO 덕분에, 데일산드로는 업무 시간 일부를 데이터를 다운로드하고, 정리하고, 합치고, 분석하는 데 쓸 수 있었다. 심지어 회사의 고성능 서버 인프라스트럭처를 사용해 집중 모델링을 할 수도 있었다. 그리고 그는 뉴욕 시의 문제에 대한 해답을 찾았다. 나무를 가지치기하면 관련 부처에서 비상시에 직원을 보내야 하는 횟수가 22% 가량 줄어들었던 것이다.


“올 해 가지치기를 한 블록의 경우 내년에 위험 사고 발생 확률이 22% 가량 낮을 것이다. 이렇게 구체적인 정보가 나온 것은 처음이라고들 했다”라고 데일산드로는 말했다.


분석을 사용해 리스크 프로파일 만들기
중요한 첫 걸음이긴 하지만, 이 숫자는 시작일 뿐이다. 어쨌거나 뉴욕 시에는 이미 가지치기 프로그램이 있으니 말이다. 하지만 뉴욕 시 같은 대도시도 모든 블록을 해마다 가지치기 하기에는 자원이 부족하다. 때문에 관련 부처에서는 어느 구역을 먼저 가지치기 할 것인지 결정해야 한다.


“우선은 공원 관리소에서 관계자와 상의해 어느 정도의 자원을 투입할 것인지 결정할 수 있도록 베이스라인을 정해야 한다. 두 번째 단계는 ‘스마트 가지치기’ 다. 이들 자체적으로 애널리틱스를 사용해 이제부터는 지금까지와는 다른 질문을 던지고 거기에 대한 해답을 스스로 찾을 수 있도록 해주고 싶다. 1단계는 한 블록의 리스크 프로파일을 만드는 과정이었다. 나무의 개체 수, 종류, 그 블록이 홍수 위험 지역인지, 폭풍 위험 지역인지 등의 정보를 파악하는 것이다. 이런 의문들은 전부 답을 구할 수 있는 것들이다”라고 데일산드로는 전했다.


그는 또, 이제 관련 부처에서는 데이터 인프라스트럭처 투자 및 데이터 수집 작업의 근거가 되어 줄 확실한 자료로 무장하게 되었다고 말했다.


“궁극적으로 이는 뉴욕 시의 가지치기 프로그램을 개선시킬 수 있을 뿐 아니라, 비슷한 가지치기 프로그램을 지닌 다른 도시들에도 적용할 수 있을 것이다"라고 데이터카인드의 창립자이자 전무인 제이크 폴웨이는 말했다. 데이터카인드는 데일산드로와 공원 관리소를 연결해 준 단체이기도 하다.


기업의 사회 참여를 돕는 새로운 형태의 선구자 ‘데이터카인드.’
“양심적인 데이터 사이언티스트, NPO/NGO 전문가, 개혁가 CIO, 그리고 이 문제에 관심 있는 주최자들”로 이루어진 데이터카인드는 데이터를 이용해 인류를 이롭게 하는 것을 목표로 하는 단체다.


예를 들면, 데이터카인드는 레퓨지스 유나이티드(Refugees United)같은 단체와 협력해 애널리틱스를 이용해 난리통에 서로를 잃어 버린 피난민 가족들을 찾아 주는 일을 하고 있다고 폴웨이는 말했다.


폴웨이는 “데이터는 단순히 보고서를 쓰기 위한 자료만이 아니다. 실제로 인도주의적 목적으로도 사용할 수 있다"라고 덧붙였다.


데이터카인드는 정기적으로 ‘데이터 다이브(DataDives)’라는 주말 행사를 기획한다. 이 행사에서는 명확한 데이터 문제를 가진 세 개의 사회 단체들을 선정해 자원봉사 데이터 과학자와 연결해 줌으로써 데이터 문제를 해결할 수 있도록 돕는다. 물론 100% 비영리 목적으로 진행된다. 뉴욕 시 공원 관리소 역시 데이터다이브를 통해 데이터카인드와 만났다.


이에 덧붙여, 데이터카인드는 파트타임으로 계약 데이터 프로젝트 또는 자원봉사 데이터 프로젝트에서 일하는 정예 데이터 과학자 그룹 “데이터콥스(DataCorps)”를 운영하고 있다.


이들은 특정 데이터 프로젝트에 짧게는 1개월에서 6개월까지도 일한다. 데이터카인드에서 월급을 주기도 하고, 때로는 자신이 일하는 회사에서 스폰서가 되어주기도 한다.


마지막으로, 데이터카인드에는 풀 타임으로 근무하는 데이터 과학자 직원이 있는데 이들은 가장 시급하면서도 영향력이 큰 문제들을 해결한다.


“뉴욕 시 나무 문제를 해결할 때도 주말에 몰아서 하거나 밤에 잠을 못 자고 했던 것이 아니다. 대부분의 일은 직장에서 짬이 날 때마다 했다. 하지만 이는 CEO와 마케팅 부서 사람들의 배려 덕분이었다. 모두 이런 봉사 활동의 취지에 동의했고 좋은 생각이라고 여겼기 때문이다. 내 시간을 몇 주, 몇 달씩 버려가며 하는 봉사 활동이 아니다. 가끔가다 나는 몇 시간을 여기에 투자하는 것일 뿐. 이 과정에서 필요하면 회사의 서비스를 이용할 수 있었고 회사 측에서도 이에 대해 아주 너그러웠다. 우리 회사는 데이터 과학자가 지역 커뮤니티 일에 적극적으로 관여하는 것을 긍정적으로 보았다”라고 데일산드로는 말했다.


그는 이어 “내 생각에 이는 기업의 사회 참여의 아주 훌륭한 표본이다. 더 많은 기업들에서 특정 분야에 기술이 뛰어난 인력을 데이터카인드 같은 곳에 ‘기부'해 사회단체들(자선 단체든 시민 단체든)을 돕게 한다면, 그것이야말로 가장 훌륭한 기업의 사회 참여라 생각한다. 내가 사기업에서 일하는 한 계속 이 일에 참여하고 싶다”라고 덧붙였다.




※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.ciokorea.com/news/17254]

맨 위로
맨 위로