강좌

HOME > 강좌 >
강좌| 리눅스 및 오픈소스에 관련된 강좌를 보실 수 있습니다.
 
데이터 마이닝
조회 : 3,337  


데이터 마이닝 

데이터마이닝 데이터웨어하우스(Datawarehouse)라는 것이 있다. 이를 축소한 개념으로 보면 이해하기 편할 것 같다. 나 자신도 이에 대해선 잘 알지 못하므로 정보공유차원에서 이해하기 쉽게 설명한 글이 있어 적어본다. 이 글은 pcLine 98년 8월호의 해외뉴스란에 실렸던 글이다. 이에 대한 좀더 자세한 내용은 마이크로소프트웨어 99년 8월호를 참고하면 도움이 될 것이다.

데이터마이닝 기술은 기업정보 전략의 핵심 기존의 이른바 데이터베이스는 재고관리나 수주 발주 등 주로 기업의 기간업무를 위한 틀짜기를 정비해서 데이터를 모아왔다. 이런 방식은 복수의 온라인 단말기에서 데이터를 추가하거나 갱신하는 트랜잭션 처리를 강화하고, 대량의 데이터를 신속하게 일괄 처리가 가능한 장점이 있었다. 다만, 목적에 대응해서 개별시스템으로 나눠져 구축되기 때문에 담당 부문이나 상품, 시기, 지역이라는 자유로운 구분 단위로 데이터를 추출하고, 종합적으로 분석하는 이용형태로 대응하기에는 무리가 있었다. 이에 배해 요즘 유행하고 있는 데이터 웨어하우스(datawarehouse)는 틀짜기에 불문하고 사용자 자신이 필요한 정보를 자유자재로 추출하고 분석하는 것을 주목적으로 하고 있다. 데이터의 형식이나 구조를 누구라도 알 수 있게 정리해두고, 즉 마케팅이나 경영전략에서도 의사결정 지원을 위한 특화된 데이터베이스가 데이터 웨어하우스라고 할 수 있다. 데이터 웨어하우스에는 일상의 기업활동에서 발생하는 각종의 데이터들이 시간 단위로 보존된다. 정기적으로 기간 데이터베이스의 데이터를 재편성해서 전송하거나 또는 인터넷을 통해서 수집한 고객정보 등도 집약되어 과거에서 현재에 이르는 데이터가 축적되는 것이다. 그리고, 그 용량은 수뱍 기가에서 테라바이트 급에 이르는 경우가 다반사다.그렇지만 이 정도로 데이터의 용량이 거대해지면 이를 어떻게 분석할 것인지가 큰 문제로 대두된다. 경영이나 마케팅에 도움이 되는 전략을 얼마나 기능적으로 이끌어 낼 것인가? 문제의 핵심은 이용 기술에 있다. 이 가운데 가장 주목을 끄는 것이 바로 데이터 마이닝(data mining)기술이다.

맥주와 일회용 기저귀를 같이 사는 남성 고객
'데이터 마이닝'은 광산에서 금속의 광맥을 채굴(mining)하는 작업에서 유래된 단어이다. 대량의 데이터 속에서 명확하게 보이지 않는 법칙성이나 데이터 사이에 인과 고나계를 발견하자는 것이 데이터 마이닝의 목적이다. 즉, 이를 이용하면 대량의 매상 정보중에서 '5만 엔 이상의 상품중 동시에 구입될 가능성이 큰 것은 어떤 상품인가?'라는 비지니스법칙을 자동으로 추출할 수 있다는 뜻이다.
물론, 초대용량의 데이터에서 분석을 다양하게 행하거나 숨겨져 있는 인과 관계를 발견하는 것은 기종의 분석가들도 해왔던 작업이다. 그러나 이제까지는 가설을 세우고 입증하는 작업을 몇 번씩 반복하지 않으면 안되었고, 대단히 번거로운 일이 아닐 수 없었다. 거기에 데이터 마이닝을 적용하는 것으로 가설을 세운 과정을 반자동화하는 것이 가능하고, 이제까지 일부의 전문가빡에 할 수 없었던 고도의 분석을 누구라도 할 수 있게 된다. 게다가 분석 전문가들조차도 파악하지 못했던 사실을 발견할 수 있을지도 모른다.
이해하기 쉽게 예를 들자면(타이핑하는 사람왈: 이해하기 쉽구나!! ) 수퍼마켓의 영수증에 입력된 데이터를 분석한 결과 퇴근길의 남성고객이 맥주와 일회용 아기 기저귀를 동시에 구입해서 돌아가는 경우가 예상 외로 빈도수가 옾았다. 이런 가능성이 높은 곡개층을 추출해 다이렉트 메일의 접속률을 높인다거나 취소에 따른 고객 감소를 예측해서 사전에 대책을 강구한다는, 여러 가지 대응 방법을 생각할 수 있다.
또한, 데이터 마이닝의 새로운 동향으로 기간 데이터 베이스에서 추출한 수치 중심의 데이터뿐만 아니라 문서정보를 분석하는 것을 목적으로 한 데이터 마이닝도 등장하고 있다. 본래 문서중에는 각종 지식이 내재돼 있다. 이것을 다차원 공간에 전개하는 것에 의해 단어간의 관련도를 분석하는 것이다.
예를 들면 신문 1년치 문서정보에는 약 10만 개 정도의 키워드가 포함돼 있고, O-157의 문제를 다룬 기사 중에서는 병원성 대장균이나 식중독, 학교 급식이라는 단어가 자주 출현하는 것을 알 수 있다. 이렇게 해서 연상게임처럼 관련 있는 깊은 어군을 시스템이 자동적으로 학습해가는 것이다.
이를 마케팅에 활용한다면 전화센터에서 받은 곡개으로부터 문의 전화의 이력이나 앙케이트등을 자동으로 분석할 수 있다. 알고 싶었던 것에 대해서 곡개이 어떤 단어나 표현을 사용해서 접근했는지를 파악하는 것이 가능하다. 게다가 날짜와 시간의 데이터를 분류의 축으로 더해서 시같대별의 변화를 읽어 내거나 고객의 개인정보를 적용하는 것에 의해 '어떤 속성을 가진 고객이 무엇을 알고 싶어하는가'를 신속하게 분석할 수 있다.
예컨대, 곡개의 '살아있는 소리'를 짚어가면서 거기에 묻혀 있는 의도나 필요를 두드러지게 할 수 있는 것이다. 경영자나 마케팅 담당자는 그 결과를 다음 경영방향으로 이끌어갈 수 있다. 앞으로의 기업 전략을 지탱하는 정보 기술(Information Technology)의 핵심으로 데이터 마이닝이 더더욱 그 자리매김을 확실히 해나갈 것임은 자명하다.

그림없이 글로만 되어 있으니 다소 지루한 감이 있지만 개념을 잡는 데는 도움이 될 것 같다.

 

Copyleft(C) 명규의 오라클OCP All rights free


[원글링크] : https://www.linux.co.kr/home2/board/subbs/board.php?bo_table=lecture&wr_id=755


이 글을 트위터로 보내기 이 글을 페이스북으로 보내기 이 글을 미투데이로 보내기

 
강명규
홈페이지 : http://dbakorea.pe.kr/

e-mail : myunggyu골뺑이orgio.net