반응형
1절 빅데이터의 이해
1-1. 빅데이터 관점에 따른 정의
빅데이터는 관점에 따라 3가지로 정의한다.
- 3V(volume, variety, velocity)로 요약되는 데이터 자체의 특성 변화에 초첨을 맞춘 좁은 범위
- 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위
- 인재, 조직 변화까지 포함한 넓은 관점에서의 빅데이터에 대한 정의
3V
양 (vloume) : 데이터의 규모 측면 (센싱데이터, 비정형데이터)
다양성 (variety) : 데이터 유형과 소스 측면 (정형, 비정형데이터 <영상, 사진>)
속도 (velocity) : 데이터 수집과 처리 측면 (원하는 데이터의 추출 및 분석 속도)
4V
가치(value), 진실성 (veracity), 정확성(validity), 휘발성(volatility)
* 3V에 가치를 추가하면 4V, 진실성, 정확성, 휘발성을 추가하면 7V의 개념이 생성되고 있다.
빅데이터의 범주가 데이터의 변화 -> 기술 변화 -> 인재, 조직의 변화로 점점 확대되고 있다.
- 데이터의 변화 : 규모, 형태, 속도
- 기술 변화 : 데이터 처리, 저장, 분석 기술 및 아키텍처, 클라우드 컴퓨팅 활용
- 인재, 조직 변화 : 데이터 사이언티스트와 같은 새로운 인재 필요, 데이터 중심 조직
1-2. 출현 배경과 변화
3가지 출현 배경
출현배경 | 내용 | |
산업계 | 고객 데이터 축척 | 고객 데이터를 축척하여 보유함으로써 데이터에 숨어있는 가치를 발굴하여 성장동력원인 기술 확보 |
학계 | 거대 데이터 활용 및 과학 확산 | 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계도구들이 발전 |
기술발전 | 관련 기술의 발달 | 디지털화, 저장, 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 |
ICT의 발전과 빅데이터의 출현
1-3. 빅데이터의 기능
빅데이터에 거는 기대를 표현한 비유
- 사업혁명의 석탄, 철 : 생산성을 획기적으로 끌어올려 모든 분야에서 전반적인 혁명적 변화를 가져올 것을 기대
- 21세기의 원유 : 산업 전반의 생산성을 한 단계 향상하고, 기존에 없던 새로운 범주의 산업을 만들어낼 것을 기대
- 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것을 기대
- 플랫폼 : 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망
1-4. 빅데이터가 만들어 내는 본질적인 변화
과거 | 현재 | 설명 |
사전처리 | 사후처리 | 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. |
표본조사 | 전수조사 | 데이터 수집 비용의 감소와 클라우드 기술의 발전으로 데이터 처리비용이 감소하게 되어 표본조사에서 발견되지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다. |
질 | 양 | 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가 나타나고 있다. |
인과간계 | 상관관계 | 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있어 데이터 기반의 상관관계 분석이 주는 인사이트가 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것 |
2절 빅데이터의 가치와 영향
2-1. 빅데이터의 가치
여러 가지 변수로 인해 빅데이터 시대에서는 가치를 측정하는 것이 쉽지 않다
빅데이터 가치 산정이 어려운 이유 | |
데이터 활용 방식 | 데이터 활용 방식에서는 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제/어디서/누가 활용할 지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워졌다. |
새로운 가치 창출 | 빅데이터 시대에는 데이터가 '기존에는 없던 가치'를 창출함에 따라 그 가치를 측정하기 어려워졌다. |
분석 기술발전 | 현재는 가치가 없는 데이터일지라도 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수 있다. |
2-2. 빅데이터의 영향
다양한 시장 주체들이 빅데이터를 활용함에 따라 소비자이면서 국민인 일반인들은 맞춤형 서비스를 저렴한 비용으로 이용하게 되고 적시에 필요한 정보를 얻음으로써 다양한 형태로 기회비용을 절약할 수 있어 사람들의 생활이 점점 스마트해지고 있다.
분야 | 영향 | 내용 |
기업 | 혁신, 경쟁력 제고, 생산성 향상 | 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴한다. |
정부 | 환경 탐색, 상황 분석, 미래 대응 | 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하여, 관련 정보를 추출한다. |
개인 | 목적에 따른 활용 | 빅데이터를 서비스하는 기업의 출현이 늘어나면서, 데이터 분석 비용이 지속적으로 하락하여 정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터를 활용한다. |
3절 비즈니스 모델
3-1. 빅데이터 활용 사례
1. 기업
- 구글은 사용자의 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘을 혁신하여 검색 서비스를 개선했다.
- 월마트는 고객의 구매패턴을 분석해 상품진열에 활용한다.
2. 정부
- 정부는 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방서비스 등 다양한 국가 안전 확보 활동을 위해 실시간 모니터링을 활용한다. 이 밖에도 미래 의제인 의료와 교육 개선을 위해 빅데이터를 활용해 해결책을 모색한다.
3. 개인
- 정치인은 선거를 위해 사회관계망 분석을 통해 유세 지역을 선정하고, 해당 지역의 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적인 선거 활동을 펼친다.
- 가수는 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서를 정하는데 활용한다.
3-2. 빅데이터 활용 기본 테크닉
테크닉 | 내용 | 예시 |
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | 커피를 구매하는 사람이 탄산음료도 많이 사는가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 | 기존의 시청기록을 바탕으로 시청자가 현재 보유한 영화중에서 어떤 것을 가장 보고 싶어할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 규매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 환불 정책에 대한 고객의 평가는 어떠한가? |
소셜네티워크분석 (=사회관계망분석) |
특정인과 다른 사람이 어느정도의 관계인가를 파악할 때 사용하고 영향력 있는 사람을 분별할 때 사용 | 고객들 간 관계망은 어떻게 구성되어 있는가? |
4절 위기 요인과 통제 방안
4-1. 빅데이터 시대의 위기 요인
사생활 침해
내용 | 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회/경제적 위협으로 변형될 수 있다. |
예시 | 여행 사실을 트윗한 사람의 집을 강도가 노리는 고전적 사례 발생 |
책임 원칙 훼손
내용 | 빅데이터 기본분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다. |
예시 | 영화 "마이너리티 리포트"에 나오는 것처럼 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포, 자신의 신용도와 무관하고 부당하게 대출이 거절되었다. -> 민주주의 국가의 형사 처벌은 잠재적 위협이 아닌 명확한 행동 결과에 대해 책임을 묻고 있다. |
데이터 오용
내용 | 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미매를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. |
예시 | 베트남 전쟁 때 맥나마라 장군은 적군 사망자수를 전쟁의 진척상황을 나타내는 지표로 활용했고 그 괄과 적군 사망자 수는 과장돼 보고되는 경향을 보여 결과적으로 전쟁 상황을 오보하는 결과를 발생시켰다. |
4-2. 위기 요인에 따른 통제 방안
동의에서 책임으로
내용 | 빅데이터에 의한 사생활침해 문제를 해결하기에는 부족한 측면이 많고 매번 개인정보 제공 동의를 하는 비효율적인 단계를 줄이고자 개인정보를 사용하는 사용자의 '책임'으로 해결하는 방안을 제시하였다 ('개인정보 제공자의 동의' > '개인정보 사용자의 책임') |
기대효과 | 개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임을 지게됨으로 사용주체의 적극적인 보호장치를 강구할 수 있다. |
결과 기반 책임 원칙 고수
내용 | 책임원칙 훼손 위기요인에 대한 통제 방안으로 기존의 원칙을 좀 더 보강하고 강화할 필요가 있으며, 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치를 마련하는 것이 필요하다. |
기대효과 | 잘못된 예측 알고리즘을 통한 판단을 근거로 불이익을 줄 수 없으며, 이에 따른 피해 최소화 장치를 마련해야 한다. |
알고리즘 접근 허용
내용 | 데이터 오용의 위기요소에 대한 대응책으로 '알고리즘에 대한 접근권'을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다. |
기대효과 | 불이익을 당한 사람들을 대변할 전문가(알고리즈미스트)가 필요하게 되었다. |
5절 미래의 빅데이터
5-1. 빅데이터 활용의 3요소
기본 3요소
요소 | 설명 |
데이터 | 모든 것의 데이터화 |
기술 | 진화하는 알고리즘, 인공지능 |
인력 | 데이터 사이언티스트, 알고리즈미스트 |
데이터
모든 것을 데이터화(Datafication)하는 현 추세로 특정 목적 없이 축적된 데이터를 통한 창의적인 분석이 가능해져, 새로운 가치로 부상하고 있다.
기술
대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현하였다.
인력
빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해지고 있다.
* 데이터 사이언티스트
빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자
*알고리즈미스트
데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막는 역할을 하며 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문 인력
반응형
'자격증 > ADSP' 카테고리의 다른 글
[Adsp] 2-2장 분석 마스터 플랜 (0) | 2023.01.31 |
---|---|
[Adsp] 2-1장 데이터 분석 기획의 이해 (0) | 2023.01.30 |
[Adsp] 1-3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2023.01.30 |
[Adsp] 1-1장 데이터의 이해 (0) | 2023.01.30 |
ADsP란? (0) | 2023.01.30 |