본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

빅데이터 시대…하둡을 맞이하는 ETL

OSS 게시글 작성 시각 2013-03-21 15:09:13 게시글 조회수 5080

2013년 03월 21일 (목)

ⓒ 디지털데일리, 심재석 기자 sjs@ddaily.co.kr



기업이 비즈니스인텔리전스(BI) 시스템을 구축하기 위해 반드시 도입하는 소프트웨어 중에 ETL이라는 것이 있다. ETL(추출, 변환, 적재)은 A시스템에서 데이터를 추출해 필요에 맞게 변환하고, B 시스템에 적재하는 용도의 소프트웨어다.


일반적으로 전사적자원관리(ERP)와 같은 트랜잭션 시스템에서 데이터를 추출해 데이터웨어하우스(DW)에 적재하기 위해 사용된다. 단순히 데이터를 추출해 적재하는 것이 아니라 그 사이에는 변환이라는 과정을 거치게 된다. 이 변환 과정에서는 데이터의 형식을 맞추고, 잘못된 데이터를 제거하는 등 데이터를 정리한다.


그런데 빅데이터 시대가 도래함에 따라 ETL의 역할도 바뀔 필요가 생겼다. 기존에는 관계형 DB에서 데이터를 추출해 관계형 DB에 올리는 역할을 하던 ETL이 이제는 관계형 DB가 아닌 하둡과 같은 파일시스템까지 대상으로 해야 할 필요가 생긴 것이다.


ETL 업체들은 원천 데이터 소스를 하둡에 올리거나 하둡에 있는 데이터를 다시 기존의 DW에 전달할 때 ETL이 필요하다고 강변한다. 원천 데이터를 무조건 하둡에 복사하는 것이 아니라 분석할 수 있는 형태로 변환해야 하고, 하둡의 데이터 DW에 옮길 때도 마찬가지로 변환 작업이 필요하다.


특히 하둡 파일과 DBMS(DW) 을 결합해 분석하려면 하둡이나 DBMS 한쪽으로 데이터를 이동해야 하는데, 데이터 사이즈가 너무 큰 빅데이터의 경우 이 과정에 많은 시간이 소요된다. ETL 업체들은 전문 ETL 툴을 활용하는 것이 이같은 문제를 해결 하는 방안이라고 강변한다.


즉 빅데이터 시대의 ETL은 ▲HDFS (Hadoop Distributed File System) 인터페이스 ▲대용량 데이터 처리를 위한 읽기/쓰기 병철 처리 ▲하둡 데이터를 DBMS에 적재 ▲하둡파일 정렬, 병합 등 변환 기능 ▲하둡 파일 집계 ▲하둡 파일과 DBMS 간의 Join/Merge/Look-up 기능 제공


현재 국내에서 하둡과 데이터를 주고 받을 수 있는 ETL은 IBM과 인포매티카가 제공하고 있다.


한국IBM의 데이터스테이지는 최신 버전 9.1부터 하둡 파일 시스템과의 인터페이스를 제공한다. 원거리 서버에 있는 하둡 파일에 읽고 쓰기가 가능하다.


한국인포매티카 역시 기존의 파워센터 및 파워익스체인지를 빅데이터 시대에 맞도록 개선했다. 파워센터 빅데이터 데이션 및 파워익스체인지 포 하둡 등이 그것이다.


이에 대해 한국IBM 관계자는 “하둡 기반의 빅데이터 구축이 진행 될수록 빠른 성능을 보장하는 ETL 도구에 대한 요구 사항은 증대 될 것”이라며 “병렬처리 기반의ETL 도구가 하둡 기반의 빅데이터 구축의 핵심이 될 것”이라고 말했다.


한국인포매티카 최승철 대표는 “기업들이 핸드코딩을 통해 하둡의 데이터를 가져오고, 보내면 유지관리도 어렵고, 많은 인력이 투입돼야 한다”면서 “하둡 시대에도 ETL의 역할은 중요하”고 말했다.




※ 본 내용은 (주)디지털데일리(http://www.ddaily.co.kr)의 저작권 동의에 의해 공유되고 있습니다.

Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지


[원문출처 : http://www.ddaily.co.kr/news/news_view.php?uid=102436]

맨 위로
맨 위로