자격증/ADSP

[Adsp] 1-2장 데이터의 가치와 미래

동호다찌 2023. 1. 30. 12:28
반응형

 

1절 빅데이터의 이해

1-1. 빅데이터 관점에 따른 정의

빅데이터는 관점에 따라 3가지로 정의한다.

  1. 3V(volume, variety, velocity)로 요약되는 데이터 자체의 특성 변화에 초첨을 맞춘 좁은 범위 
  2. 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위
  3. 인재, 조직 변화까지 포함한 넓은 관점에서의 빅데이터에 대한 정의
3V
양 (vloume) : 데이터의 규모 측면 (센싱데이터, 비정형데이터)
다양성 (variety) : 데이터 유형과 소스 측면 (정형, 비정형데이터 <영상, 사진>)
속도 (velocity) : 데이터 수집과 처리 측면 (원하는 데이터의 추출 및 분석 속도)

4V
가치(value), 진실성 (veracity), 정확성(validity), 휘발성(volatility)

* 3V에 가치를 추가하면 4V, 진실성, 정확성, 휘발성을 추가하면 7V의 개념이 생성되고 있다.

 

빅데이터의 범주가 데이터의 변화 -> 기술 변화 -> 인재, 조직의 변화로 점점 확대되고 있다.

  • 데이터의 변화 : 규모, 형태, 속도
  • 기술 변화 : 데이터 처리, 저장, 분석 기술 및 아키텍처, 클라우드 컴퓨팅 활용
  • 인재, 조직 변화 : 데이터 사이언티스트와 같은 새로운 인재 필요, 데이터 중심 조직

 

1-2. 출현 배경과 변화

3가지 출현 배경

  출현배경 내용
산업계 고객 데이터 축척 고객 데이터를 축척하여 보유함으로써 데이터에 숨어있는 가치를 발굴하여 성장동력원인 기술 확보
학계 거대 데이터 활용 및 과학 확산 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계도구들이 발전
기술발전 관련 기술의 발달 디지털화, 저장, 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

 

ICT의 발전과 빅데이터의 출현

 

1-3. 빅데이터의 기능

빅데이터에 거는 기대를 표현한 비유

  • 사업혁명의 석탄, 철 : 생산성을 획기적으로 끌어올려 모든 분야에서 전반적인 혁명적 변화를 가져올 것을 기대
  • 21세기의 원유 : 산업 전반의 생산성을 한 단계 향상하고, 기존에 없던 새로운 범주의 산업을 만들어낼 것을 기대
  • 렌즈 : 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것을 기대
  • 플랫폼 : 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망

 

1-4. 빅데이터가 만들어 내는 본질적인 변화

과거 현재 설명
사전처리 사후처리 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
표본조사 전수조사 데이터 수집 비용의 감소와 클라우드 기술의 발전으로 데이터 처리비용이 감소하게 되어 표본조사에서 발견되지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다.
데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가 나타나고 있다.
인과간계 상관관계 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있어 데이터 기반의 상관관계 분석이 주는 인사이트가 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것

 


2절 빅데이터의 가치와 영향

2-1.  빅데이터의 가치

여러 가지 변수로 인해 빅데이터 시대에서는 가치를 측정하는 것이 쉽지 않다

빅데이터 가치 산정이 어려운 이유
데이터 활용 방식 데이터 활용 방식에서는 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제/어디서/누가 활용할 지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워졌다.
새로운 가치 창출 빅데이터 시대에는 데이터가 '기존에는 없던 가치'를 창출함에 따라 그 가치를 측정하기 어려워졌다.
분석 기술발전 현재는 가치가 없는 데이터일지라도 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수 있다.

 

2-2. 빅데이터의 영향

다양한 시장 주체들이 빅데이터를 활용함에 따라 소비자이면서 국민인 일반인들은 맞춤형 서비스를 저렴한 비용으로 이용하게 되고 적시에 필요한 정보를 얻음으로써 다양한 형태로 기회비용을 절약할 수 있어 사람들의 생활이 점점 스마트해지고 있다.

분야 영향 내용
기업 혁신, 경쟁력 제고, 생산성 향상 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴한다.
정부 환경 탐색, 상황 분석, 미래 대응 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하여, 관련 정보를 추출한다.
개인 목적에 따른 활용 빅데이터를 서비스하는 기업의 출현이 늘어나면서, 데이터 분석 비용이 지속적으로 하락하여 정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터를 활용한다.

 


3절 비즈니스 모델

3-1. 빅데이터 활용 사례

1. 기업

  • 구글은 사용자의 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘을 혁신하여 검색 서비스를 개선했다.
  • 월마트는 고객의 구매패턴을 분석해 상품진열에 활용한다.

 

2. 정부

  • 정부는 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방서비스 등 다양한 국가 안전 확보 활동을 위해 실시간 모니터링을 활용한다. 이 밖에도 미래 의제인 의료와 교육 개선을 위해 빅데이터를 활용해 해결책을 모색한다.

 

3. 개인

  •  정치인은 선거를 위해 사회관계망 분석을 통해 유세 지역을 선정하고, 해당 지역의 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적인 선거 활동을 펼친다.
  • 가수는 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서를 정하는데 활용한다.

 

3-2. 빅데이터 활용 기본 테크닉

테크닉 내용 예시
연관규칙학습 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 커피를 구매하는 사람이 탄산음료도 많이 사는가?
유형분석 문서를 분류하거나 조직을 그룹으로 나눌 때 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자 알고리즘 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계학습 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 기존의 시청기록을 바탕으로 시청자가 현재 보유한 영화중에서 어떤 것을 가장 보고 싶어할까?
회귀분석 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 규매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
감정분석 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 새로운 환불 정책에 대한 고객의 평가는 어떠한가?
소셜네티워크분석
(=사회관계망분석)
특정인과 다른 사람이 어느정도의 관계인가를 파악할 때 사용하고 영향력 있는 사람을 분별할 때 사용 고객들 간 관계망은 어떻게 구성되어 있는가?

 


4절 위기 요인과 통제 방안

4-1. 빅데이터 시대의 위기 요인

사생활 침해

내용 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회/경제적 위협으로 변형될 수 있다.
예시 여행 사실을 트윗한 사람의 집을 강도가 노리는 고전적 사례 발생

 

책임 원칙 훼손

내용 빅데이터 기본분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다.
예시 영화 "마이너리티 리포트"에 나오는 것처럼 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포, 자신의 신용도와 무관하고 부당하게 대출이 거절되었다.
-> 민주주의 국가의 형사 처벌은 잠재적 위협이 아닌 명확한 행동 결과에 대해 책임을 묻고 있다.

 

데이터 오용

내용 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미매를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다.
예시 베트남 전쟁 때 맥나마라 장군은 적군 사망자수를 전쟁의 진척상황을 나타내는 지표로 활용했고 그 괄과 적군 사망자 수는 과장돼 보고되는 경향을 보여 결과적으로 전쟁 상황을 오보하는 결과를 발생시켰다.

 

4-2. 위기 요인에 따른 통제 방안

동의에서 책임으로

내용 빅데이터에 의한 사생활침해 문제를 해결하기에는 부족한 측면이 많고 매번 개인정보 제공 동의를 하는 비효율적인 단계를 줄이고자 개인정보를 사용하는 사용자의 '책임'으로 해결하는 방안을 제시하였다
('개인정보 제공자의 동의' > '개인정보 사용자의 책임')
기대효과 개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임을 지게됨으로 사용주체의 적극적인 보호장치를 강구할 수 있다.

 

결과 기반 책임 원칙 고수

내용 책임원칙 훼손 위기요인에 대한 통제 방안으로 기존의 원칙을 좀 더 보강하고 강화할 필요가 있으며, 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치를 마련하는 것이 필요하다.
기대효과 잘못된 예측 알고리즘을 통한 판단을 근거로 불이익을 줄 수 없으며, 이에 따른 피해 최소화 장치를 마련해야 한다.

 

알고리즘 접근 허용

내용 데이터 오용의 위기요소에 대한 대응책으로 '알고리즘에 대한 접근권'을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.
기대효과 불이익을 당한 사람들을 대변할 전문가(알고리즈미스트)가 필요하게 되었다.

 


5절 미래의 빅데이터

5-1. 빅데이터 활용의 3요소

기본 3요소

요소 설명
데이터 모든 것의 데이터화
기술 진화하는 알고리즘, 인공지능
인력 데이터 사이언티스트, 알고리즈미스트

 

데이터

모든 것을 데이터화(Datafication)하는 현 추세로 특정 목적 없이 축적된 데이터를 통한 창의적인 분석이 가능해져, 새로운 가치로 부상하고 있다.

 

기술

대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현하였다.

 

인력

빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해지고 있다.

 

* 데이터 사이언티스트
빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자

*알고리즈미스트
데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막는 역할을 하며 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문 인력
반응형