1. 효율적인 의사결정에 적용하는 유용한 정보의 추출, Data Mining의 개요
가. 데이터 마이닝(Data Mining)의 정의
▶ 대용량의 데이터에 숨겨져 있는 데이터간의 관계, 패턴을 탐색하고 이를 모형화하여 업무에 적용할 수 있는 의 미있는 정보로 변환함으로써 기업의 의사결정에 적용하는 일련의 과정
나. Data Mining의 특징
1) 정보의 Activity와 Rule을 추론하여 경영의 경쟁력 강화를 위하여 목표 예상을 가능하게 함.
2) 지식 집약적(Knowledge Intensive): 응용분야 지식, DB/DW지식, 데이터 마이닝기법에 대한 지식
3) 3I 모델링 프로세스
- Iterative : 반복적 분석
- Iteractive : 대화식 처리
- Incremental : 증가치 방식
4) 귀납적 결과에 초점
2. Data Mining 적용 기술
3. Data Mining의 구축절차 및 OLAP와 비교
가. Data Mining의 구축 절차
나. OLAP와 비교
가. 데이터 마이닝(Data Mining)의 정의
▶ 대용량의 데이터에 숨겨져 있는 데이터간의 관계, 패턴을 탐색하고 이를 모형화하여 업무에 적용할 수 있는 의 미있는 정보로 변환함으로써 기업의 의사결정에 적용하는 일련의 과정
나. Data Mining의 특징
1) 정보의 Activity와 Rule을 추론하여 경영의 경쟁력 강화를 위하여 목표 예상을 가능하게 함.
2) 지식 집약적(Knowledge Intensive): 응용분야 지식, DB/DW지식, 데이터 마이닝기법에 대한 지식
3) 3I 모델링 프로세스
- Iterative : 반복적 분석
- Iteractive : 대화식 처리
- Incremental : 증가치 방식
4) 귀납적 결과에 초점
2. Data Mining 적용 기술
기술 | 설명 |
연관성 탐사 (Association) |
▷ 여러 개의 트랜잭션들 중에서 동시에 발생하는 트랜잭션의 연관관계를 발견하는 것임 (사례) 넥타이를 구매하는 고객이 셔츠를 50% 이상 구매하고, 정장과 벨트를 구매하는 고객은 코트를 구매할 확률이 40% 이상 |
연속성 규칙 (Sequence) |
▷ 개인별 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성을 예측하는 것임 (사례) A품목을 구입한 회원이 향후 H품목을 구입할 가능성은 75%이다. --> 5번 회원에게 H품목을 추천하여 마케팅의 정확화를 높임 |
분류 규칙 (Classification) |
▷ 이미 알려진 특정 그룹의 특징을 부여하고 정의된 분류에 맞게 구분 (사례) 신용카드 신규가입자를 낮음/중간/높음 신용 위험 집단으로 구분함 |
데이터 군집화 (Clustering) |
▷ 상호간에 유사한 특성을 갖는 데이터들을 집단화 하는 과정임 (사례) --> A~D의 데이터를 집단화하는 과정에서 고객 군집별 특성을 파악함 --> A군집은 소득이 300만원 이상이고, 자녀가 2~3명이고 연령이 30대 군집 --> B군집은 교육수준이 높으며, 자녀는 모두 출가했고, 연평균 구매액이 200~300만원 정도 |
특성화 (Characterization) |
▷ 데이터 집합의 일반적인 특성을 분석하는 것으로 데이터의 요약 과정을 통하여 특성 규칙을 발견하는 것 |
3. Data Mining의 구축절차 및 OLAP와 비교
가. Data Mining의 구축 절차
기술 | 설명 |
Data 선택 | ▷ 필요 Data의 위치, 형태, 완전성 등을 파악하여 확보/통합하는 과정 |
Data 정제 | ▷ 확보된 데이터의 완성도를 높이는 작업 |
Data 보완 | ▷ 데이터의 양과 깊이를 늘리는 작업 |
Data 변환 | ▷ 불필요한 레코드, 항목삭제, 파생항목을 만들거나 항목의 값을 세분화 또는 그룹핑하는 작업 |
Data Mining 적용 및 평가 |
▷ 구축된 Data에 대한 Data Mining 적용 기술을 적용하여 도출도니 결과를 해석 ▷ 의미있는 결과는 의사결정에 적용 |
나. OLAP와 비교
구분 | OLAP | DATA Mining |
개념 | 특정 사실에 대한 가/부 판단 | 패턴 추론 |
판정기준 | 입증 | 가설 |
요구사항 | 사용자의 방대한 지식 | 자동 추출 |
특징 | 고정적인 방법 | 진보적인 방법 |
차이점 | 특정 물음에 대한 정보 제공 | 그뒤에 숨겨진 일반적인 경향 정보 |
공통점 | ▷ 데이터 사이의 새로운 관계를 찾아내는 과정 ▷ 데이터웨어 하우스의 활용을 높이는 과정 |
'05번. 3년 후, 기술사 > ▶ 데이터베이스' 카테고리의 다른 글
B-Tree 인덱스 (0) | 2011.11.23 |
---|