본문 바로가기
자기계발

[빅데이터분석기사] 챕터 1. 빅데이터의 이해

by 스터디마형 2024. 9. 3.

01. 데이터와 정보

- 데이터는 1646년 영국 문헌에 처음 등장

 

데이터 정의 : 데이터는 추론과 추정의 근거를 이루는 사실. / 현실 세계에서 관찰하거나 측정하여 수집한 사실

 

데이터 특징 :

단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.

객관적 사실이라는 존재적 특성을 갖는다.

추론, 추정, 예측, 전망을 위한 근거로써 당위적 틍성을 갖는다.

 

데이터의 구분

- 정량적 데이터
정의: 수치로 표현되어 측정 가능하고 계산할 수 있는 데이터를 말합니다.
특징:
객관적으로 비교 및 분석이 용이합니다.
통계적 방법을 통해 정확한 결과 도출이 가능합니다.
예시: 매출액, 온도, 나이, 키, 무게 등

 

- 정성적 데이터
정의: 수치화하기 어려운 질적인 특성이나 속성을 나타내는 데이터를 말합니다.
특징:
주관적인 해석이 필요하며, 의미를 파악하기 위해 내용 분석 등이 필요합니다.
설문조사, 인터뷰 등을 통해 수집됩니다.
예시: 고객의 만족도, 제품에 대한 의견, 사진, 동영상, 텍스트 등

 

데이터 유형

- 정형 데이터
정의: 정해진 형식과 구조를 가진 데이터로, 일정한 형식과 구조를 따릅니다.
특징:
관계형 데이터베이스에서 쉽게 저장 및 관리가 가능합니다.
구조가 명확하여 검색과 분석이 용이합니다.
예시: 엑셀 스프레드시트, SQL 데이터베이스의 테이블 데이터 등, 관계형 데이터베이스의 테이블에 저장되는 데이터 등

 

- 반정형 데이터
정의: 일부 구조를 가지고 있지만 완전히 정형화되지 않은 데이터를 말합니다.
특징:
태그나 마크업을 통해 구조를 일부 정의하지만, 데이터 형식과 구조가 비교적 유연하고, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터로 연산이 불가능하다.
데이터 처리 및 변환을 통해 정형 데이터로 변환할 수 있습니다.
예시: XML, JSON, HTML 문서 등

 

* 스키마 : 자료의 구조, 표현 방법

* JSON : 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷

* XML : 여러 특수 목적을 갖는 마크업 언어를 만드는 용도로 권장되는 다목적 마크업 언어

 

- 비정형 데이터
정의: 구조가 정해지지 않은 대부분의 데이터이며, 연산이 불가능.
특징:
다양한 형태로 존재하며, 처리가 복잡합니다.
전체 데이터의 대부분을 차지하며, 빅데이터 분석에서 중요한 역할을 합니다.
예시: 텍스트 문서, 이미지, 오디오, 비디오, 소셜 미디어 데이터 등

 

데이터의 근원에 따른 분류

데이터의 수집과정은 데이터의 재생산 과정을 볼 수 있으며, 원본 데이터로부터 재생산된 데이터는 가역데이터와 불가역 데이터로 구분

 

- 가역 데이터 : 생산된 데이터 원본으로 일정 수준 환원이 가능한 데이터

- 불가역 데이터 :생산된 데이터 원본으로 환원이 불가능한 데이터 

 

데이터의 기능

- 암묵지 : 어떠한 시행착오나 다양하고 오랜 경험을 통해 개인에게 체계화되어 있으며, 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어렵다. / 학습과 경험을 통하여 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식

 

- 형식지 : 형상화된 유형의 지식으로 그 전달과 공유가 쉽다. / 명시적으로 알 수 있는 형태, 형식을 갖추어 표현되고 공유가 가능한 지식

 

지식창조 매커니즘

1. 공통화

2. 표출화

3. 연결화

4. 내면화

 

데이터, 정보, 지식, 지혜

- 데이터의 정확성은 정보, 지식, 지혜와의 상호관계에서 지대한 영향을 마치며, 가치창출에 있어 핵심적은 역활을 한다.

 

 

02 데이터베이스

데이터베이스의 정의:
데이터를 효율적으로 저장, 관리, 검색할 수 있도록 구조화된 데이터의 집합입니다. 데이터베이스는 다양한 응용 프로그램이 데이터를 공유하고 접근할 수 있도록 하는 중심 역할을 합니다.

 

* 데이터베이스는 관련된 레코드의 집합, 소프트웨어로는 데이터베이스 관리 시스템(DBMS)을 의미 한다.

 

데이터베이스 관리 시스템(DBMS):
데이터베이스를 생성, 관리, 제어하는 소프트웨어 시스템입니다. DBMS는 사용자가 데이터를 쉽게 접근하고 조작할 수 있도록 다양한 기능을 제공합니다.

SQL(Structured Query Language)

- 데이터베이스를 관리하고 조작하기 위해 사용하는 표준 언어입니다. 단순 질의 기능 뿐만 아니라 데이터를 삽입, 삭제, 업데이트, 검색할 수 있습니다.

 

데이터베이스의 특징:
-통합된 데이터 : 중복 x

-저장된 데이터 : 컴퓨터가 접근 할 수 있는 저장매체에 저장

-공용 데이터 : 여러 사용자가 사용 가능

-변화되는 데이터 : 갱신으로 변회하면서도 현재의 정확한 데이터 유지

 

데이터베이스의 활용
OLTP (Online Transaction Processing): 데이터 갱신 위주
온라인 거래 처리 시스템으로, 실시간으로 다수의 사용자가 데이터베이스에 접근해 트랜잭션을 수행하는 것을 의미합니다.

예로는 은행 시스템, 전자상거래 사이트 등이 있습니다.

OLAP (Online Analytical Processing): 데이터 조회 위주
대량의 데이터를 분석해 의사결정에 필요한 정보를 제공하는 시스템입니다. OLAP은 주로 데이터 웨어하우스에서 수행되며, 비즈니스 인텔리전스(BI)와 연관이 깊습니다.

 

* OLTP가 데이터 갱신 위주라면, OLAP는 데이터 조회 위주라고 할 수 있다.

 

데이터 웨어하우스(DW):
다양한 출처의 데이터를 통합하여 장기적으로 저장하고, 이를 바탕으로 분석과 보고를 수행하는 시스템입니다. 데이터 웨어하우스는 주로 OLAP에서 사용되며, 기업의 전략적 의사결정을 지원합니다.

 

* 데이터만이 아닌 분석 방법까지도 포함하여 조직 내 의사결정을 지원하는 정보관리시스템

 

데이터 웨어하우스 특징

- 주제 지향성

- 통합성

- 시계열성

- 비휘발성

 

데이터웨어하우스의 구성

출처 : https://www.sap.com/korea/products/technology-platform/datasphere/what-is-a-data-warehouse.html

 

 

4. 빅데이터의 개요
- 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미

- 빅데이터는 대용량 데이터를 활용해 작은 용량에서 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내며, 나아가 이를 활용해 시장과 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 것이다.

 

* 빅데이터의 대한 인식은 데이터 규모와 기출 측면에서 시작했지만, 빅데이터의 가치와 효과 측면으로 최근 그 의미가 확대되고 있다.

 

1) 빅데이터의 등장과 변화

등장배경:
인터넷과 디지털 기술의 발전으로 데이터 생성 속도가 급증하고, 다양한 소스에서 방대한 양의 데이터가 생성되면서 빅데이터 개념이 등장했습니다.

- 데이터 속 숨어있는 가치를 발굴해 새로운 성장 동력으로 활용

- 다양한 학문 분야에 필요한 아키텍처 및 분석 기벅들이 발전하고 있다.

 

데이터 변화 -> 기술 변화 -> 인재, 조직 변화

 

등장으로 인한 변화:
빅데이터의 등장으로 기업들은 데이터를 통해 더 깊이 있는 인사이트를 얻을 수 있게 되었으며, 이를 바탕으로 맞춤형 서비스, 예측 모델, 실시간 의사결정 등이 가능해졌습니다.

 

- 데이터 처리시점이 사전처리에서 사후처리로 이동 / 기존 필요한 정보만 수집하는 시스템에서 가능한 많이 모아 다양한 방식으로 조합하여 숨은 정보를 얻는 방식

- 데이터 처리 범주가 표본조사에서 전수조사로 확대

- 데이터의 가치 판단 기준이 질보단 양으로 그 중요도가 달라졌다.

- 데이터를 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화되는 경향이 있다.

 

빅데이터 특징:

- 빅데이터 용어가 사용된 초기에 가트너 그룹은 3V(규모, 유형, 속도)로 빅데이터의 특징을 설명했으며, 최근에는 빅데이터 분석을 통해 얻을 수 있는 가치와 데이터에 대한 품질의 중요성이 강조되고 있다.

 

 

 

5V : 5가지 V  ★ 가트너의 3V에 대해 구분할 수 있어야 한다.
3V : Volume(데이터의 양), Velocity(데이터 생성 속도), Variety(데이터의 다양성)으로 요약됩니다. 

 

Volume(데이터의 양) : 규모 : 데이터양이 늘어남 / 기존 데이터 관리 시스템의 성능적 한계 도달

Velocity(데이터 생성 속도) : 속도 : 데이터 수집과 처리 속도의 변화(고속화) / 대용량 데이터의 신속하고 즉각적인 분석 요구

Variety(데이터의 다양성) : 유형 : 데이터의 종류와 근원 확대(다양화) / 정형, 비정형, 반정형 데이터로 확장 

 

+ 2V :최근에는 Veracity(데이터의 신뢰성)**과 **Value(데이터의 가치)**도 중요한 특징으로 추가되고 있습니다.

Veracity(데이터의 신뢰성) : 품질 : 데이터 신뢰성, 정확성, 타장성 보장이 필수 / 고품질 데이터에서 고수준 인사이트 도출

Value(데이터의 가치) : 가치 : 대용량 데이터 안 숨켜진 가치 발굴 중요 / 다른 데이터와 연계 시 가치가 배로 증가

 

 

빅데이터 활용:

빅데이터는 마케팅, 고객 분석, 위험 관리, 제품 개발 등 다양한 분야에서 활용됩니다. 예를 들어, 기업은 고객 행동 데이터를 분석하여 맞춤형 마케팅 전략을 세우고, 정부는 공공 데이터를 통해 정책 결정을 지원합니다.

 

빅데이터의 활용을 위한 3요소

- 자원: 빅데이터

자원의 확보 / 데이터 품질 확보

 

- 기술 : 빅데이터 플랫폼, AI

> 분산 파일 시스템을 통해 데이터 분산 처리

> 데이터마이닝 등을 통해 데이터를 분석 및 시각화

> 데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용

 

- 인력 : 알고리즈미스트, 데이터 사이언티스트

> 통계학, 수학, 컴퓨터 공학, 경영학 분야 전문지식을 갖춘다.

> 모데인 지식을 습득하여 데이터 분석 및 결과를 해석한다.

 

빅데이터의 활용을 위한 기본 테크닉

- 연관규칙학습 : 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법

>> 도시락을 구매하는 사람이 음료수를 더 많이 구매하는가?

 

- 유형분석 : 문서를 분류하거나 조직을 그룹화 할 때 사용

>> 이것은 어떤 특성을 가진 집단에 속하는가?

 

- 유전 알고리즘 : 최적화가 필요한 문제를 생문 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법

>> 시청률을 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?

 

- 기계학습:  머신러닝이라고 많이 표현하고, 데이터 훈련을 통해서 학습된 특성을 활용하여 예측

>> 시청 기록을 바탕으로 어떤 영화를 가장 보고 싶어하는가?

 

- 회귀분석 : 독립변수가 종속변수에 미치는 영향을 활용하여 예측

>> 경력과 학력이 연봉에 미치는 영향은?

 

- 감정분석 : 특정 주체에 대해 말을 하거나 글을 쓴 사람의 감정을 분석

>> 새로운 할인 정책에 대한 고객의 평은 어떤가?

 

- 소셜네트워크 : 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용

>> 고객들 간 관계망은 어떻게 구성되는가?

 

04 빅데이터의 가치
빅데이터의 기능과 효과:
빅데이터는 대규모 데이터를 분석하여 숨겨진 패턴을 발견하고, 이를 통해 기업과 조직의 의사결정에 중요한 인사이트를 제공합니다. 이를 통해 경쟁 우위를 확보하거나 새로운 비즈니스 기회를 창출할 수 있습니다.

- 고객 세분화와 맞춤형 개인화 서비스를 제공할 수 있다.

- 빅데이터는 알고리즘 기반으로 의사결정을 지원하거나 대신한다.

 

빅데이터의 가치 측정의 어려움:
빅데이터의 가치는 데이터의 질, 분석 방법, 활용 방식에 따라 크게 달라질 수 있어, 그 가치를 정확히 측정하는 것이 어려운 과제입니다.

- 데이터 활용방식

- 가치 창출 방식

- 분석 기술 발전

- 데이터 수집 원가

 

빅데이터의 영향:
빅데이터는 전통적인 비즈니스 모델과 산업 구조를 변화시키고 있으며, 데이터 중심의 의사결정이 기업의 경쟁력을 좌우하게 되었습니다. 이는 또한 개인정보 보호, 윤리적 문제 등 새로운 도전을 제기합니다.

개인에게 활용 목적에 따라 스마트화를 통해 영향을 준다.

 

 

05 데이터 산업의 이해
1) 데이터 산업의 진화:

데이터 산업은 정보통신 기술의 발전과 함께 데이터 수집, 저장, 분석 기술이 급속히 발전하면서 진화해 왔습니다. 빅데이터와 인공지능(AI)의 결합으로 데이터 산업은 새로운 국면에 접어들었습니다.

 

데이터 산업은 데이터처리 - 통합 - 분석 - 연결 - 권리 시대로 진화하고 있다.

- 데이터 처리 시대

 

- 데이터 통합 시대 : 데이터 모델링과 데이터베이스 관리 시스템이 등장

* 데이터 모델링: 통합되 데이터를 일관성 있게 관리하기 위해 데이터베이스 설계기법

 

- 데이터 분석 시대 : 빅데이터 기술이 등장

* 하둡 : 일반 사용 서버로 구성된 클러스터에서 사용할 수 있는 분산 파일 시스템과 대량의 자료를 처리하기 위해 분산 처리 시스템을 제공하는 오픈 소스 프레임워크

 

* 데이터 리터러시 : 데이터를 읽고 그 의미를 파악하는 해독능력

 

- 데이터 연걸 시대

* 플랫폼 비즈니스 : 네트워크 효과를 이용한 비즈니스

* OPEN API  : 특정 서비스를 제공하느 ㄴ업체가 자신들의 서비스를 접근할 수 있도록 그 방법을 외부에 공개한 것

 

- 데이터 권리 시대 : 개인이 자신의 데이터를 자신을 위해서 사용한다.

> 자신의 데이터에 대한 권리를 보유하고 있으며 스스로 행사 할 수 있어야 한다는 마이 데이터가 등장하였다.

* 마이데이터 : 개인 데이터의 활용처와 활용범위 등에 대한 정보주체의 능동적인 의사결정을 지원, 개인정보 자기결정권 보장

 

2) 데이터 산업의 구조

데이터 산업은 데이터 수집 및 저장, 분석, 활용이라는 구조로 나눌 수 있습니다. 이 구조는 데이터 제공자, 데이터 분석가, 데이터 활용자 등 다양한 주체들이 협력하여 가치를 창출하는 생태계를 형성합니다.

 

- 인프라 영역

> 데이터 수집, 저장, 분석, 관리 등의 기능을 담당 / 장비 및 스토리지 같은 하드웨어 영역 / 데이터 관리 분석을 위한 소프트 영역

 

- 서비스 영역

> 데이터 활용을 위한 교육, 컨설팅, 솔루션 제공 / 데이터 자체를 제공 또는 가공한 정보를 제공 / 데이터 처리 역활 담당

 

06. 빅데이터의 조직 및 인력

기업의 경쟁력을 확보하고 비즈니스 질문을 도출하고 이를 충족을 위한 조직 및 인력 구성 방안 수립

데이터 분석을 통한 성과 창출을 위해서는 조직 역량의 개발, 인력의 영입 등과 같은 전사 관점의 전략이 필요

 

필요성:
빅데이터를 효과적으로 활용하기 위해서는 전문적인 조직과 인력이 필수적입니다. 데이터 기반 의사결정을 내리기 위해 각 분야의 전문가들이 협력해야 합니다.
조직의 역할:
빅데이터 조직은 데이터의 수집, 관리, 분석, 활용을 체계적으로 수행하는 역할을 합니다. 이 조직은 데이터를 전략적으로 활용해 비즈니스 목표를 달성하도록 지원합니다.
조직의 구성:
데이터 과학자, 데이터 엔지니어, 분석 전문가 등 다양한 전문가로 구성됩니다. 각자 역할에 맞게 데이터를 다루고, 인사이트를 도출하여 조직의 성과를 극대화합니다.

 

- 조직 구성을 위한 체크리스트

- 인력구성을 위한 체크리스트

 

★ 각 조직구조의 특징을 알아두어야 한다.

-집중구조 : 전사 분석 업무를 별도의 분석 전담 조직에서 담당

-기능구조 : 해당 업무 부서에서 분석 수행, 전사적 차원에서 전략적 핵심 분석 어려움/ 특정 현업 부서에 국한된 협소한 분석 수행 가능성 높음

-분산구조 : 분석조직 인력을 현업부서로 직접 배치, 전사적 차원에서 분석 과제의 우선선위를 선정하고 수행 , 분석 결과를 현업에 빠르게 적용 가능

 

- 구성 인력과 필요역량

 


데이터 사이언스 역량:

빅데이터 분석을 위해서는 정형, 비정형 형태를 포함한 다양한 데이터로 부터 지식과 인사이트를 추출하는데  통계, 프로그래밍, 머신러닝 등 다양한 기술 역량이 요구됩니다. 이러한 역량을 갖춘 인력은 빅데이터 분석을 통해 문제 해결과 혁신을 이끌어냅니다.

 


데이터 사이언티스트:
데이터를 분석하여 가치 있는 인사이트를 도출하는 전문가로, 빅데이터 조직에서 핵심적인 역할을 합니다. 데이터 사이언티스트는 데이터 수집, 처리, 분석, 모델링을 수행하며, 이를 통해 실질적인 비즈니스 성과를 도출합니다.

문제를 집중적으로 파고들어 질문을 찾고, 검증 가능한 가설을 세워야한다.

 

* 데이터 사이언티스트 : 데이터의 근원을 찾고 대용량의 복잡한 데이터를 구조화하며 서로 연결하는 역활