[오픈테크넷서밋 2018] 메가존클라우드 “오픈소스 검색엔진 데이터 쉽게 활용하려면...”
2018년 09월 13일
ⓒ 디지털데일리, 홍하나 hhn0626@ddaily.co.kr
[디지털데일리 홍하나기자] 최근 많은 IT기업들이 쏟아지는 데이터를 활용하기 위해 다양한 기술을 채택하고 있다. 빅데이터, 머신러닝 등은 고부가 가치 기술로 꼽히지만 진입장벽이 높다. 이에 메가존클라우드가 데이터 활용을 할 수 있는 간단한 방법에 대해 소개했다.
13일 과학기술정보통신부가 주최하고 정보통신산업진흥원(NIPA)과 디지털데일리가 공동주관하는 ‘오픈 테크넷 서밋2018’에서 이윤미 메가존클라우드 팀장<사진>은 오픈소스 검색엔진의 데이터 활용 기술 일라스틱서치(Elasticsearch)에 대해 발표했다.
일라스틱 기술은 아파치 루씬(Apache lucene) 기반의 오픈 소스 분산 검색엔진이다. 메인 기능 자체를 무료로 사용할 수 있어 일라스틱 사용이 늘어나고 있는 추세다. 일라스틱의 활용 범위는 기존 검색엔진의 전통적 활용에서 빅데이터 분석, 기계학습 예측, 학습으로 인한 확대적용 등으로 넓어졌다.
그중에서도 최근 일라스틱 기술 가운데 가장 각광받는 것이 머신러닝이다. 이 팀장은 “진입하기 어려운 머신러닝 기술을 가장 편하게 사용할 수 있는 것이 일라스틱 서치”라면서 “일라스틱에서는 전체 사용자인터페이스(UI)를 제공하고 있어 머신러닝에 대해 몰라도 데이터를 학습시킬 수 있다”고 밝혔다.
또 일라스틱은 역인덱스 방식을 채용해 여러 단어 가운데 원하는 단어를 빠르게 찾을 수 있다. 데이터의 키워드를 추출해 키워드 대상의 문서를 저장하는 방식이다. 따라서 단어가 어디에 있는지 더 빠르게 찾아낼 수 있는 것. 예를 들어 단어를 찾으면 해당 단어가 몇 페이지에 나와 있는지 알 수 있다.
데이터의 형태를 구애받지 않는 것도 장점이다. 최근 나온 버전은 한글형태소 기능을 탑재하고 있다. 반정형, 비정형 데이터가 많은 소셜데이터, 텍스트 등을 손쉽게 수집할 수 있는 것. 이 팀장에 따르면 현재 메가존클라우드 고객사에서 가장 많이 사용하는 방식이 형태소를 쪼개고 키워드를 꺼내 챗봇 학습에 사용하는 것이다.
일라스틱이 빅데이터와 비교했을 때 연산작업을 따로 할 수 있다는 것도 장점이다. 빅데이터의 경우 마스터모드가 작업을 지시하기 때문에 항상 이 모드를 부연해야 한다. 하지만 일라스틱은 사용자가 원하는 형태로 구성할 수 있다.
구체적으로 빅데이터는 데이터를 파티셔닝해서 저장한다. 일라스틱도 하나의 파일을 여러 개로 쪼갤 수 있다. 다만 빅데이터는 데이터를 세 개만 카피하지만 일라스틱의 경우 사용자가 카피 개수를 지정할 수 있다. 따라서 데이터 유실 가능성이 훨씬 적은 것이 장점이다.
이윤미 팀장은 “최근 데이터 사업에서 굉장히 많은 제품군이 나오고 있다”면서 “진입이 어려운 오픈소스 검색엔진 데이터활용 기술을 손쉽게 진입할 수 있는 일라스틱 서치가 시작단계에서 도움이 될 것”이라고 밝혔다.
※ 본 내용은 (주)디지털데일리(http://www.ddaily.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
[원문출처 : http://www.ddaily.co.kr/news/article.html?no=172735]
번호 | 제목 | 조회수 | 작성 |
---|---|---|---|
공지 | [Open UP 활용가이드] 공개SW 활용 및 개발, 창업, 교육 "Open UP을 활용하세요" | 396561 | 2020-10-27 |
공지 | [Open UP 소개] 공개SW 개발·공유·활용 원스톱 지원 Open UP이 함께합니다 | 386376 | 2020-10-27 |
8024 | “웹브라우저에서 머신러닝을” 텐서플로우 자바스크립트 라이브러리 Tensorflow.js | 5141 | 2018-09-14 |
8023 | “거인(오픈소스SW)의 어깨에 올라서자”…오픈테크넷 서밋 2018 개최 | 5301 | 2018-09-14 |
8022 | [오픈테크넷서밋 2018] 큐브리드가 제안하는 클라우드 전환 방안은? | 4097 | 2018-09-14 |
8021 | [오픈테크넷서밋 2018] 메가존클라우드 “오픈소스 검색엔진 데이터 쉽게 활용하려면...” | 5298 | 2018-09-14 |
8020 | [오픈테크넷서밋 2018] 네패스 “하드웨어 하나로 언제 어디서나 AI" | 5028 | 2018-09-14 |
8019 | [오픈테크넷서밋 2018] 한국레드햇 “오픈소스 전략, 디지털 트랜스포메이션 이끈다” | 5459 | 2018-09-14 |
8018 | 알티베이스 오픈 소스 해외 사용자 급증…연내 누적 다운로드 4000건 전망 | 5014 | 2018-09-14 |
8017 | “스마트TV부터 자동차까지”…오픈소스 생태계 확대 나선 삼성-LG | 5518 | 2018-09-12 |
8016 | [2018 사물인터넷 진흥주간]공공기관, IoT 기술 확보…중소기업과 협력해 산업 육성 | 5355 | 2018-09-11 |
8015 | [주간 OSS 동향 리포트]기업 내에서의 공개SW 기술 역량 수요 증가 | 6647 | 2018-09-11 |
0개 댓글