1절 분석 기획 방향성 도출
1-1. 분석 기획의 특징
분석 기획이란?
- 실제 분석을 수행하기 전, 과제 정의 및 관리 방안을 사전에 계획하는 작업
- 어떠한 목표를 달성하기 위해, 어떤 데이터를 가지고, 어떤 방식으로 수행할지에 대한 계획 수립
데이터 사이언티스트의 역량?
수학, 통계학적 지식 및 정보기술뿐만 아니라 해당 비즈니스에 대한 이해와 전문성을 포함한 3가지 영역에 대한 고른 역량과 시각이 필요하다.
- Math&Statistics
- Information&Technology
- Domain&Knowledge
1-2. 분석 대상과 방법
분석은 대상과 방법에 따라 4가지로 나뉜다.
최적화 Optimization | 솔루션 Solution | 통찰 Insight | 발견 Discovery |
- 분석 대상 알고 있음 O - 분석 방법 알고 있음 O |
- 분석 대상 알고 있음 O - 분석 방법 모름 X |
- 분석 대상 모름 X - 분석 방법 알고 있음 O |
- 분석 대상 모름 X - 분석 방법 모름 X |
1-3. 목표 시점 별 분석 기획 방안
당면한 과제를 빠르게 해결하는 "과제 중심적인 접근 방식"과 지속적인 분석 내재화를 위한 "장기적인 마스터플랜 방식"으로 나뉠 수 있다.
구분 | 1차 목표 | 과제의 유형 | 접근 방식 |
당면한 분석 주제의 해결 (과제 단위) |
빠른 수행, 문제 해결이 목적 (Speed & Test) |
Quick & Win | Problem Solving |
장기적, 지속적 분석 문화 내재화 (마스터 플랜 단위) |
정확도, 문제 정의가 목적 (Accuracy & Deploy) |
Long term view | Problem Definition |
1-4. 분석 기획 시 고려사항
가용 데이터 고려
분석을 위한 데이터 확보가 우선적이며, 데이터 유형에 따라 적용 가능한 솔루션 및 데이터 확보가 우선
적절한 활용방안과 유즈케이스 탐색
기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용
장애요소들에 대한 사전계획 수집
일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 지속적인 교육 및 활용방안을 관리
2절 분석 방법론
2-1. 분석 방법론 개요
기업 내에 효과적으로 정착하기 위해서는 체계화한 절차와 방법이 정리된 분석 방법론의 수립이 필수적이다.
방법론은 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느 정도의 지식만 있으면 활용이 가능해야 한다.
데이터 기반 의사결정의 필요성
- 경험과 감에 따른 의사결정에서 데이터 기반의 의사결정으로 변화
- 기업의 합리적인 의사결정을 가로막는 장애요소 : 고정관념, 편향된 생각, 프레이밍 효과
방법론의 생성과정
방법론의 적용 업무의 특성에 따른 모델
- 폭포수 모델 : 단계를 순차적으로 진행하는 방법으로 이전 단계가 완료되어야 다음 단계로 이동
- 프로토타입 모델 : 일부분을 우선 개발하여 사용자에게 제공하는 방식
- 나선형 모델 : 반복을 통해 점중적으로 개발하는 방법
방법론의 구성
구성 ↓ | 내용 | 산출물 |
1. 단계 | 최상위 계층으로서 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성된다. | 단계별 완료 보고서 |
2. 태스크 | 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질 검토의 항목이 된다. | 보고서 |
3. 스텝 | WBS의 워크 패키지에 해당되고, 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다. | 보고서 구성요소 |
2-2. KDD 분석 방법론
1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 마이닝 프로세스이다.
KDD의 분석 절차
1. 데이터셋 선택(Selection)
- 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이다.
- 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계
- 목표데이터를 구성하여 데이터마이닝에 활용한다.
2. 데이터 전처리(Preprocessing)
- 잡음과 이상치, 결측치를 식별하고 필요시 제거하거나 의미 있는 데이터로 재처리하여 정제하는 단계
- 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행
3. 데이터 변환(Transfomating)
- 정제된 데이터를 목적에 맞게 변수 생성 및 선택하고 데이터를 축소하여 효율적으로 마이닝하도록 변경하는 단계
- 마이닝 프로세스를 위해 학습용 데이터와 시험용 데이터로 분리하는 단계
4. 데이터 마이닝(Data Mining)
- 목적에 맞는 데이터마이닝 기법을 선택하고 적절한 알고리즘을 사용하여 작업을 실행하는 단계
- 필요에 따라 전처리와 변환 프로세스를 추가로 실행하여 최적의 결과를 산출
5. 데이터 마이닝 결과 평가 (Interpretation / Evaluation)
- 데이터 마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치성을 확인
- 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련
2-3. CRISP-DM 분석 방법론
1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며 5개 업체들이 주도하였고 계층적 프로세스 모델로써 4개 레벨로 구성된다.
CRISP-DM의 4 레벨 구조
- 최상위 레벨은 여러 개의 단계(Phase)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함한다.
- 일반화 태스크는 데이터마이닝의 단일로 프로세스를 완전하게 수행하는 단위이며 이는 구체적인 수행 레벨인 세분화 테스트로 구성된다.
- 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다.
- 프로세스 실행은 데이터마이닝을 위한 구체적인 실행을 포함한다.
CRISP-DM의 프로세스
단계 | 내용 | 수행업무 |
업무 이해 | - 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해하기 위한 단계 - 도메인 지식을 분석하기 위한 문제 정의로 변경하고 프로젝트 초기 계획 수립 단계 |
- 업무 목적 파악 - 상황 파악 - 계획 수립 |
데이터 이해 | - 분석을 위한 데이터를 수집하고 속성을 이해하기 위한 단계 - 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계 |
- 초기 데이터 수집 - 데이터 기술 분석 - 탐색, 품질 확인 |
데이터 준비 | - 분석을 위하여 수집된 데이터에서 분석기법에 정확한 데이터를 편성하는 단계 | - 분석데이터셋 선택 - 데이터 정제 - 편성, 통합, 포맷 |
모델링 | - 다양한 모델링 기법과 알고리즘을 선택하여 최적화해 나가는 단계 | - 모델링 기법 선택 - 테스트 계획 설계 - 모델 작성, 평가 |
평가 | - 결과가 프로젝트 목적에 부합하는 평가하는 단계 | - 분석 결과 평가 - 모델링 과정 평가 - 모델 적용성 평가 |
전개 | - 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계 - 모니터링과 모델의 유지보수 계획 마련하는 단계 |
- 전개 계획 수립 - 모니터링, 유지 보수 계획 수립 |
2-4. KDD와 CRISP-DM의 비교
KDD | CRISP-DM |
분석대상 비즈니스 이해 | 업무 이해 |
데이터셋 선택 | 데이터의 이해 |
데이터 전처리 | |
데이터 변환 | 데이터 준비 |
데이터 마이닝 | 모델링 |
데이터 마이닝 결과 평가 | 평가 |
데이터 마이닝 활용 | 전개 |
2-5. 빅데이터 분석 방법론
빅데이터 분석 방법론 - 5단계
분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개
위와 같이 총 5개의 단계로 빅 데이터 분석이 수행된다. 다섯 단계를 각각 알아보고, 해당 단계의 프로세스에 대하여 알아보도록 하자.
1단계 분석 기획
단계 | 내용 | |
비즈니스 이해 및 범위설정 | 비즈니스 이해 | 내부 업무 메뉴얼과 외부 비즈니스 자료를 조사하여 프로젝트 진행을 위한 방향을 설정한다. |
프로젝트 범위 설정 | 빅데이터 분석 프로젝트의 대상인 비즈니스에 대한 이해와 프로젝트 목적에 부합하는 범위를 설정하고 범위 정의서를 작성한다. | |
프로젝트 정의 및 계획 수립 | 데이터 분석 프로젝트 정의 | 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트 정의서를 작성하고 목표를 명확하게 하기 위한 모델 운영 이미지 및 평가 기준을 설정한다. |
프로젝트 수행 계획 수립 | 프로젝트 목적 및 배경, 기대효과, 수행방법, 일정 및 조직, 관리방안을 작성하고 프로젝트 범위를 명확하게 한다. | |
프로젝트 위험계획 수립 | 데이터 분석 위험 식별 | 프로젝트 산출물과 정리 자료를 참고하여 전문가의 판단을 활용해 발생 가능한 위험을 식별하고 영향도와 빈도, 발생가능성에 따라 위험의 우선 순위를 설정한다. |
위험 대응 계획 수립 | 식별된 위험은 정량적, 정성적 분석을 통해 위험 대응방안을 수립하여 회피, 전이, 완화, 수용으로 구분하여 계획서를 작성한다. |
2단계 데이터 준비
단계 | 내용 | |
필요 데이터 정의 | 데이터 정의 | 원천 데이터 소스로부터 분석에 필요한 데이터를 정의 |
데이터 획득방안 수립 | 정형, 반정형, 비정형 데이터를 수집하기 위한 방안을 마련, 법적인 문제점을 고려하여 상세한 데이터 획득 계획 수립 | |
데이터 스토어 설계 | 정형 데이터 스토어 설계 | 관계형 데이터베이스를 사용하여 논리적, 물리적 스토어 설계 |
비정형 데이터 스토어 설계 | 하둡, NoSql 등을 이용하여 비정형/반정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어설계 | |
프로젝트 위험계획 수립 | 데이터 수집 및 저장 | 크롤링 등 데이터 수집을 위한 ETL 등과 같은 다양한 도구와 API, 스크립트 등을 이용하여 데이터 수집 및 스토어에 저장 |
데이터 정합성 점검 | 데이터 스토어에 품질 점검을 통해 정합성을 확보하고 품질개선이 필요한 경우 보완 작업 실행 |
3단계 데이터 분석
단계 | 내용 | |
분석용 데이터 준비 | 비즈니스 룰 확인 | 프로젝트 목표를 인식하여 분석에 필요한 데이터의 범위를 확인 |
분석용 데이터 준비 | 분석용 데이터 셋 준비 | - 데이터 스토어에서 분석에 필요한 정형, 비정형 데이터를 추출 - 추출된 데이터는 구조화된 형태로 구성하고 작업공간과 전사 차원의 데이터 스토어로 분리 |
텍스트 분석 | 텍스트 데이터 확인 / 추출 | 데이터 스토어에서 필요한 텍스트 데이터 추출 |
텍스트 데이터 분석 | - 추출된 텍스트 데이터를 다양한 기법과 분석을 통해 모델 구축 - 용어사전을 확보하여 도메인 맞도록 작성 - 구축된 모델은 시각화 도구를 이용하여 의미전달 |
|
탐색적 분석 | 탐색적 데이터 분석 | 다양한 관점으로 기초 통계량을 산출하여 데이터 분포와 변수간의 관계 등 통계적 특성을 이해하고 모델링을 위한 기초자료로 활용 |
데이터 시각화 | - 탐색적 데이터 분석을 위한 도구를 사용하고 시각화를 목적으로 할 경우에는 별도의 시각화 프로세스를 따라 진행 - 사용자 인터페이스 또는 프로토타입으로 활용 |
|
모델링 | 데이터 분할 | 모델의 과적합과 일반화를 위하여 다양한 기법에 따라 데이터 분할 또는 검증 횟수, 생성 모델 개수 등을 설정한다. |
데이터 모델링 | 기계학습 등을 이용한 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모델을 만들어 운영 시스템의 적용 | |
모델 적용 및 운영 방안 | 상세한 알고리즘 설명서 작성을 하고 안정적 운영을 모니터링하는 방안 수립 | |
모델 평가 및 검증 | 모델 평가 | 프로젝트 정의서는 모델 평가 기준에 따라 객관적으로 평가하고 평가를 위해 알고리즘을 파악하고 모델 검증을 위한 별도의 데이터를 활용 |
모델 검증 | 모델의 실적용성을 검증하기 위해 모델링 검증 보고서를 작성하여 모델의 품질을 최종 검증 |
4단계 시스템 구현
단계 | 내용 | |
설계 및 구현 | 데이터 정의 | 가동중인 시스템을 분석하고 알고리즘 설명서에 근거하여 응용시스템 구축 설계 프로세스를 진행 |
데이터 획득방안 수립 | 시스템 분석 및 설계서에 따라 설계된 모델을 구현 | |
시스템 테스트 및 운영 | 데이터 수집 및 저장 | 구축된 시스템의 검증을 위하여 단위, 통합, 시스템 테스트 실시하여 시스템의 객관성과 안전성 확보 |
정합성 점검 | 사용자를 대상으로 교육 실시 및 시스템 운영계획 수립 |
5단계 평가 및 전개
단계 | 내용 | |
모델 발전 계획 수립 | 모델 발전 계획 | 기능 향상을 위한 발전계획을 상세하게 수립 |
프로젝트 평가 및 보고 | 프로젝트 성과 평가 | 프로젝트의 정량적, 정성적 성과로 나누어 성과 평가서를 작성 |
프로젝트 종료 | 진행과정의 모든 산출물 및 프로세스를 지식 자산화하고 최종 보고서를 작성 |
3절 분석 과제 발굴
3-1. 분석과제 발굴 방법론
분석과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변화한 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출된다.
분석 과제를 도출하기 위해서 ‘하향식 접근 방법’과 ‘상향식 접근 방법’이 있다. 위 두 방법은 서로 혼용되어 사용되며, 두 가지 접근방식이 상호 보완의 관계로 이루어져 있을 때, 최적의 의사결정을 수행한다.
하향식 접근법
하향식 분석 접근법은 현황 분석을 통해 기회나 문제를 탐색하고, 해당 문제를 정의, 해결방안을 탐색한다. 그리고 데이터 분석의 타당성 평가를 거쳐 분석 과제를 도출하는 과정으로 구성된다.
- 분석 과제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정을 단계적으로 수행하는 방식
- 분석적으로 사물을 인식하려는 'why'관점에서 접근
처리 절차
- 1단계 문제 탐색 단계
- 비즈니스 모델 캔버스를 활용하여 5가지 영역으로 비즈니스를 분석 (업무, 제품, 고객, 규제/감사, 지원 인프라)
- 범위 확장
- 경쟁사의 동향 (대체재, 경쟁자, 신규 진입자)
- 사회, 기술, 경제 환경, 정치
- 시장 니즈 탐색 (고객, 채널, 영향자들)
- 역량의 재해석 (내부 역량, 파트너와 네트워크)
- 2단계 문제 정의
- 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
- '고객 이탈의 증대'라는 비즈니스 문제는 '고객 이탈에 영향을 미치는 원인을 분석'하는 문제로 변환 가능
- 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
- 3단계 해결방안 탐색
- 기존 시스템의 단순한 보완으로 분석이 가능한지 고려
- 엑셀 등의 간단한 도구로 분석이 가능한지 고려
- 하둡 등 분산병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도 있는 방안 고려
- 4단계 타당성 검토
- 경제적 타당성
- 데이터 타당성
- 기술적 타당성
상향식 접근법
문제의 정의 자체가 어려울 때 상향식 접근 방식을 활용한다. 상향식 접근 방식은 각각의 기능들을 개발하고 그 기능들을 하나로 묶어서 전체 프로그램을 만들어내는 기법이다. 보통 일반적으로 상향식 분석은 비지도 학습을 할 때 수행된다.
- 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
- 사물을 있는 그대로 인식하는 what 관점에서 접근
하향식 접근법의 한계를 극복하기 위한 분석 방법론
- 디자인 사고 접근법을 통해 전통적인 사고를 극복
- 상향식 접근 방식의 발산 단계와 하향식 접근 방식의 수행단계를 반복적으로 수행하는 식의 상호 보완적인 동작 환경을 통해 분석의 가치를 높일 수 있는 최적의 의사결정 방식
- 감정이입을 특히 강조
- 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근 방법
- 비지도 학습 방법으로 수행
- 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근
- 시행착오를 통한 문제 해결
- 프로토타이핑 접근법
- 분석과제 정의
- 분석과제 정의서를 통해 분석별 필요 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도 분석 수행주기, 검증 오너십, 상세 분석 과정 등을 정의
지도, 비지도 학습
- 비지도 학습
- 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현
- 데이터 마이닝 기법 (장바구니 분석, 군집 분석, 기술 통계 및 프로 파일링)
- 지도 학습
- 명확한 목적하에 데이터 분석을 실시하는 것
- 분류, 추측, 예측, 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출
4절 분석 프로젝트 관리
4-1. 분석 과제 관리를 위한 5가지 주요영역
영역 | 내용 |
Data Size | 분석하려하는 데이터의 크기를 고려하여 관리방안을 세워야한다. (데이터의 크기가 매우 크다면, 하둡환경에서 구축하는 것이 훨신 좋다.) |
Data complexity | 비정형 데이터는 해당 데이터에 맞는 분석모델을 선정해야하는 등의 사전 고려가 필요하다. |
Speed | 분석 결과에 대한 시나리오의 속도를 고려해야한다. 예를들어 실시간으로 은행업무의 사기를 탐지하는 시스템을 구축한 경우 사기를 판단하는데 오랜 시간이 걸리면 해당 시스템을 적용하기 어려울 것이다. 따라서 프로젝트 수행 시 분석모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 한다. |
Analytic Complexity | 분석모델이 복잡해질수록, 정확도는 올라가고, 설명을 하기 어려워 질 수 있다. 즉 복잡도와 정확도 그리고 설명력의 trade-off관계를 고려하여 사전에 기준점을 정해야 한다. |
Accuracy & Precision | Accuracy는 정확도를 의미한다. 모델이 얼마나 잘 맞추었는가에 대한 것며 Precision은 모델이 positive를 얼마나 잘 맞추었는가에 대한 설명이다. 두 관계가 trade-off가 되는 경우가 많기 때문에 이에 대하여 고려해야한다. |
4-2. 분석 프로젝트의 특성
- 프로젝트 관점에서는 도출된 분석 과제를 잘 구현해 원하는 정보를 얻기 위해서 프로젝트의 전체적인 관점을 고려해야 한다.
- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑에서 애자일 프로젝트 관리 방식에 대한 고려가 필요하다.
- 애자일 모델 - 계속해서 프로토타입을 개발하여 요구사항에 더하고 수정하며 커다란 소프트웨어를 개발하는 기법
4-3. 분석 프로젝트 관리 방안
분석 프로젝트는 데이터 분석의 특성을 살려 프로젝트관리지침을 기본 가이드로 활용할 필요가 있다. 프로젝트 관리 지침의 관리체계는 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통으로 이루어져 있다.
분석 프로젝트의 영역별 주요 관리 항목
주제 그룹 | 개념 및 관련 프로세스 |
통합 | 프로젝트와 관련된 다양한 활동과 프로세스 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스 |
이해관계자 | 이해관계자를 식별 및 관리하는 프로세스 |
범위 | 작업과 인도물을 식별하고 정의하는 데 요구되는 프로세스 |
자원 | 시설, 인력, 자재와 같은 적절한 프로젝트의 자원을 식별하고 확보하는 프로세스 |
시간 | 프로젝트 활동의 일정을 수립하고 통제하는 프로세스 |
원가 | 예산에 대하여 관리하는 프로세스 |
리스크 | 위험과 기회를 식별하고 대응하는 프로세스 |
품질 | 품질 보증과 품질 통제를 계획하고 확립하는 데 요구되는 프로세스 |
조달 | 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계를 관리하는 프로세스 |
의사소통 | 프로젝트와 관련된 정보를 계획, 관리, 배포하는 데 요구되는 프로세스 |
'자격증 > ADSP' 카테고리의 다른 글
[Adsp] 2-2장 분석 마스터 플랜 (0) | 2023.01.31 |
---|---|
[Adsp] 1-3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2023.01.30 |
[Adsp] 1-2장 데이터의 가치와 미래 (0) | 2023.01.30 |
[Adsp] 1-1장 데이터의 이해 (0) | 2023.01.30 |
ADsP란? (0) | 2023.01.30 |