[빅데이터분석기사] 챕터 1. 빅데이터의 이해

자기계발

[빅데이터분석기사] 챕터 1. 빅데이터의 이해 - 2

스터디마형 2024. 9. 6. 23:19

[빅데이터 기술 및 제도]

1. 빅데이터 플랫폼

빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경이다.

* 빅데이터 플랫폼

빅데이터를 분석 또는 활용하는데 필요한 필수적인 것으로, 빅데이터 기술읠 집합체

1) 빅데이터 플랫폼의 등장배경

① 비즈니스 요구사항 변터 기술 및 제도]

빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경이다.

* 빅데이터 플랫폼

빅데이터를 분석 또는 활용하는데 필요한 필수적인 것으로, 빅데이터 기술읠 집합체

1) 빅데이터 플랫폼의 등장배경

① 비즈니스 요구사항 변화

② 데이터 규모와 처리 복잡도 증가

③ 데이터 구조의 변화와 신속성 요구

④ 데이터 분석 유연성 증대

2) 빅데이터 플랫폼의 기능

- 빅데이터를 처리하는 과정에서 부하 발생은 불가피, 빅데이터 플랫폼은 이러한 부하들을 기술적인 요소들을 결합하여 해소한다.

① 컴퓨터 부하 발생

② 저장 부하 발생

③ 네트워크 부하 발생

④ 데이터 분석 유연성 증대

3) 빅데이터 플램폼의 조건

빅데이터 플랫폼은 서비스 사용자와 제공자 어느 한쪽에 친우쳐서는 안 되며 모두가 만족할 수 있는 환경을 제공하여야 한다.

① 서비스 사용자 측면에서의 체크리스트

② 서비스 제공자 측면에서의 체크리스트

4) 빅데이터 플램폼의 구조

위에서로부터 소프트웨어 계층, 플램폼 계층, 인프라스트럭처 계층의 3계층으로 구성되어 있다.

① 소프트웨어 계층

- 빅데이터 애플리케이션을 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집, 정제를 한다.

② 플랫폼 계층

- 빅데이터 애플리케이션을 실행하기 위한 플랫폼을 제공하며, 작업 스케줄링이나 데이터 및 자원 할당과 관리, 프로파일링 등을 수행한다.

③ 인프라스트럭쳐 계층

- 자원 배치와 스토리지 관리, 노드 및 네트워크 관리 등을 통해 빅데이터 처리와 분석에 필요한 자원을 제공한다.

2.빅데이터 처리기술

1) 빅데이터 처리과정과 요소기술

★ 단계별로 어떤 과정이 진행이 되는지 이해해야 한다.

데이터(생성) > 수집 > 저장(공유) > 처리 > 분석 > 시각화

[빅데이터 처리과정]

① 생성 : 데이터베이스나 파일 관리 시스템과 같은 내부 데이터, 인터넷으로 연결된 외부로부터 생성된 파일이나 데이터 있음

② 수집 : 크롤링, ETL 등을 통해 데이터를 검색 수집, 추추르 변환 적재. 단순 검색 및 수집 뿐 아니라 변환 과정 등을 모두 포함

③ 저장(공유) : 데이터를 저렴한 비용으로 데이터를 쉽고 빠르게 많이 저장. 병렬 DBMS나 하둡(Hardoop), NoSQL 등 사용 가능

* 하둡

분산 파일 시스템과 분산 처리 시스템을 제공하는 아파치 소프트웨어 재단의 오픈 소스 프레임 워크

④ 처리 : 분산 병렬 및 인-메모리(In-Memory) 방식으로 처리한다. 하둡의 맵 리듀스가 대표적으로 사용

* 인메모리

디스크가 아닌 메인 메모리에 데이터를 저장하느 기술

⑤ 분석 : 목적에 맞는 분석 기법을 선택하여 분석( 통계분석, 데이터 마이닝, 텍스트 마이닝, 기계학습 방법 등)

⑥ 시각화 : : 처리 및 분석 결과를 그래프를 이용해 표현하여 사용자에게 보여주는 기술, 이후 탐색이나 해석에 활용한다.

2) 빅데이터 수집

① 크롤링 : 웹사이트에서 자동으로 데이터를 수집하는 기술입니다. 크롤러(Crawler) 또는 봇이 웹페이지를 탐색하며, 필요한 정보를 추출해 저장합니다. 주로 검색엔진이나 데이터 분석 목적으로 사용됩니다.

② 로그 수집기 : 시스템, 애플리케이션, 서버 등에서 생성되는 로그 데이터를 실시간으로 수집하는 도구입니다. 로그 수집기는 데이터를 중앙 서버에 저장하고, 분석할 수 있도록 도와줍니다.

③ 센서 네트워크Sensor Network): 물리적 환경에서 센서를 통해 데이터를 수집하고, 이 데이터를 무선으로 전달하여 분석하는 시스템입니다. 사물인터넷(IoT)에서 많이 사용되며, 환경 모니터링, 스마트홈, 산업 자동화에 활용됩니다.

④ RSS Reader / Open API : 데이터의 생산, 공유, 참여할 수 있는 환경인 웹 2.0을 구현하는 기술이다.

필요한 데이터를 프로그래밍을 통해 수집할 수 있다.

⑤ ETL 프로세스 : 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 과정으로, 다양한 소스에서 데이터를 수집해 분석 가능한 형태로 변환하여 데이터베이스나 데이터 웨어하우스로 적재하는 프로세스입니다. 다양한 원천 데이터를 취함해 추출하고 공통된 형식으로 변환하여 적재하는 과정이다.

3) 데이터 저장

① NoSQL(Not-only-SQL)
데이터 모델을 단순화하여 설계한 비관계형 데이터베이스 / 관계형 데이터베이스로 SQL을 사용하지 않는 DBMS와 저장장치이다.
- 기존의 RDBMS의 트랜잭션 속성인 원자성, 일관성, 독립성, 지속성을 유연하게 적용함.

>>NoSQL는 기존의 RDBMS 트랜잭션 속성인 원자성, 일관성, 독립성, 지속성을 포기하는 저장 기술??
• 포기하는 저장 기술"은 NoSQL이 RDBMS처럼 모든 트랜잭션 속성을 엄격하게 적용하지 않음을 뜻하며, 이는 성능과 확장성을 중시하는 설계 철학을 반영한 표현입니다.
• 따라서, 둘 다 같은 맥락을 설명하지만 표현이 다를 뿐, NoSQL은 상황에 따라 속성을 유연하게 적용하거나 일부를 포기하는 방식으로 동작한다고 이해하시면 됩니다.

- 데이터 업데이트가 즉각적으로 가능한 데이터 저장소이다.

- HBase, MongoDB, Cassandra 등의 DB가 대표적이다.

② 공유 데이터 시스템
- 일관성, 가용성, 분할 내성 중 최대 두 개의 속성만 보유한다. (CAP 이론)
- 분할 내성을 취하고 일관성과 가용성 중 하나를 포기하여 일관성과 가용성을 모두 가진 RDBMS보다 높은 성능과 확장성을 제공한다.

③ 병렬 데이터베이스 관리 시스템

다수의 마이크로프로세서를 사용해 여러 디스크에 질의, 갱신, 입출력 등 데이터베이스 처리를 동시에 수행한다.
- 확장성 제공을 위해 작은 단위의 트랜잭션 적용이 필요하다.
- VoltDB, SAP HANA, Netezza, Greenplum, Vertica 등이 있다.

④ 분산 파일 시스템
네트워크로 공유하는 여러 호스트의 파일에 접근할 수 있는 파일 시스템이다.
- 데이터를 분산하여 저장하는데, 이 방식은 데이터의 추출 및 가공 시 빠르게 작동한다.
- GFS(Google File System, 아마존 S3, HDFS(Hadoop Distributed File System 등이 있다.

⑤ 네트워크 저장 시스템
이기종 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄하여 저장 및 관리한다.
- SAN, NAS 등이 있다.

*NAS

네트워크 결합 스토리지, 컴퓨터를 직접 연결하지 않고 근거리 통신 네트워크를 통해 데이터를 주고 받는 방식

4) 빅데이터 처리

① 분산 시스템과 병렬 스스템
- 분산 시스템 :

• 네트워크에 분산된 컴퓨터를 단일 컴퓨터처럼 구동

• 분산시스템에 속한 각 노드는 독립된 시스템이다.

• 독립 컴퓨터의 집합으로 만들었으나 마치 단일 시스템인 것처럼 수행되어야 한다.

- 병렬 시스템 :

• 문제해결을 위해 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술이다.

• 분할된 작업을 동시에 처리하여 계산 속도를 빠르게 한다.

- 위의 용어들은 구분되어 사용하기도 하지만 실제로는 명확히 구분하기 어렵다.
- 그래서 두 개념을 아우르는 분산 병렬 컴퓨팅이라는 용어가 사용된다.

* 병렬(Parallel) 데이터 베이스의 특징

• 분산 아키텍처

• 병렬 처리/고성능 처리

• 데이터 파티셔닝을 통한 데이터 병렬성

• 데이터 복제와 분산

② 분산 병렬 컴퓨팅 :

다수의 독립된 컴퓨팅 자원을 네트워크로 연결하고, 이를 제어하는 미들웨어를 이용해 하나의 시스템으로 동작하는 기술이다.

* 미들웨어

하드웨어나 프로토콜, 통신환경 등을 연결하여 응용 프로그램 간 원만한 통신이 이루어질 수 있게 하는 소프트웨어

[분산 병렬 컴퓨팅 시 고려사항]
• 전체 작업의 배분 문제
• 각 프로세서에서 계산된 중간 결과물을 프로세서 간 주고받는 문제
• 서로 다른 프로세서간 동기화 문제

③ 하둡(Hadoop)
분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 프레임워크이다.
• 야후에서 최초로 개발

• 하둡 분산파일 시스템인 HDFS와 분산칼럼기반 데이터베이스인 HBase, 분산 컴퓨팅 지원 프레임워크 맵 리듀스 등으로 구성.
• 하둡의 부족한 기능을 보완하는 에코 시스템들이 등장하여 다양한 솔루션을 제공

④ 아파치 스파크(Apache Spark)

실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리를 하며 하둡보다 처리속도가 빠름.

- 스칼라 언로로 개발되었지만 JAVA, Python을 지원

⑤ 맵리듀스(MapReduce)
빅데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병렬 및 분산 처리를 지원한다.

• 분산 병렬 데이터 처리 기술의 표준이기도 하다.

[처리단계]

1단계 : 입력 데이터를 읽고 분할
2단계 : 맵 작업 수행 후 결과인 중간 데이터를 통합 및 재분할
3단계 : 셔플 * n개의 데이터가 어떤 순서대로 정렬되어 있을때, 그 순위를 무작위로 섞는 알고리즘
4단계 : 리듀스 작업 수행
5단계 : 출력 데이터 생성 및 종료

[A, B, R], [C, C, R],[A, C, B] 데이터를 입력 받아 각 원소의 개수를 구하고자 한다.

• 입력 받은 데이터 3개로 균등 분할

• 분할된 3개의 데이터를 할당하여 맵 작업 수행 후 중간 결과갑을 [A], [B],[C], [R] 처럼 통합 및 재분할

• 셔플 진행

• 셔플된 중간 결과값을 이용해 리듀스 작업 수행하여 [A], [B],[C], [R] 각각의 개수를 구한다.

5) 빅데이터 분석

① 데이터 분석 방법 분류
• 탐구 요인 분석 (EFA, Exploratory Factor Analysis) : 데이터 간 상호 관계 파악하여 데이터 분석 방법

• 확인 요인 분석 (CFA, Confirmatory Factor Analysis) : 통계적 기법으로 분석

② 데이터 분석 방법

분류 (Classification)	미리 알려진 클래스들로 구분되는 학습 데이터셋을 학습시켜 새로 추가되는 데이터가 속할 만한 데이터 셋을 찾는 지도학습 방법
군집화 (Clusturing)	특성이 비슷한 데이터를 그룹화 / 분류와 다른 점은 학습데이터를 이용하지 않는 비지도 학습이라는 점
기계 학습 (Machine Learning)	• 인간의 학습을 모델링한 기법 • 의사결정트리 등 기호적 학습과 신경망이나 유전 알고리즘 등 비기호적 학습, 베이지안이나 은닉 마코프 등 학률적 학습 등 다양한 기법이 있다.
텍스트 마이닝 (Text Mining)	• 자연어 처리 기술을 이요해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출하거나 다은 데이터와 연관성을 파악하기 위한 방법, • 분류나 군집화 등 빅데이터에 숨겨진 의미 있는 정보를 발견하는 데 사용하기도 함
웹 마이닝 (Web Mining)	• 인터넷에서 수집한 정보로 데이터 마이닝으로 분석
오피니언 마이닝 (Opinion Mining)	• 온라인의 다양한 뉴스, 댓글 등에서 사용자의 의견을 추출, 분류, 이해하는 응용분야
리얼리티 마이닝 (Reality Mining)	• 휴대폰 등 기기를 사용하여 인간관계와 행동 양태등을 추론하는 응용분야 • 휴대폰 등의 기기를 사용하여 통화량, 통화 대상 등을 분석하여 사용자의 인간과계나 행동 특성을 찾음
소셜 네트워크 분석 (Social Network Analysis)	• 수학의 그래프 이론을 바탕으로 소셜 네트워크 서비스에서 네트워크 연결 구조와 강도를 분석하여 사용자의 명성 및 영향력을 측정하는 방법.
감성 분석 (Sentiment Analysis)	• 문장의 의미를 파악하여 긍, 부정 같은 감정을 분석 • 도출된 지수를 이용하여 고객의 감성 트렌드를 시계열 분석하고, 고객의 감성 변화에 기업들이 신속하게 대응 및 부정적인 의견의 확산을 방지하는데 활용 할 수 있다.

* 마이닝

데이터로부터 통계적인 의미가 있는 개념이나 특성을 추출하고 패턴이나 추세 등의 정보를 끌어내는 과정

3. 빅데이터와 인공지능

1) 인공지능(AI)

① 인공지능의 정의
- 기계를 지능화 하는 노력이며, 지능화란 객체가 환경에서 적절히 예지력을 갖고 작동하도록 하는 것이다.

- 어떤 행동이 최적의 결과를 낳을 수 있도록 하는 의사결정 능력을 갖춘 에이전트를 구축하는 것이다.

- 설정한 목표를 극재화 하는 행동을 제시하는 의사결정 로직

- 사람과 흡사한 생각과 행동에 초점을 맞춘 정의도 소개된 바가 있으나, 인공지능 구현방법이 구체화 될수록 인간처럼 보다는 합리성을 더 강조하고 있다.

② 인공지능과 기계학습 및 딥러닝의 관계
- 인공지능을 논할 때 기계학습과 딥러닝을 혼재하여 사용한다.

인공지능 ⊃ 머신러닝 ⊃ 딥러닝

- 기계학습은 인간의 학습 능력과 같은 기능을 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법

- 딥러닝은 기계학습 방법 중 하나로 커퓨터가 많은 데이터를 이용해 사람처럼 스스로 확습할 수 있도록 인공신경망 등의 기술을 이용한 기법

③ 딥러닝(Deep Learning)의 특징

- 딥러닝은 제프리 힌튼의 노력으로 함수추정 방법으로써의 신경망 관점에서 정보를 압축, 가공, 재현하는 알고리즘으로 일반화하면서 인공지능의 핵심 동인이 되었다.

- 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있는 특징을 갖고 있어 인공 지능 발전에 크게 기여하였다.

- 딥러닝의 학습을 위한 데이터의 확보는 곧 우수한 인공지능 개발과 깊은 관련성이 있다.

* 딥러닝

전신의 신경망(Neural Network)의 여러 단점을 극복해 유연성과 확장성을 확보

④ 기계학습의 종류

지도학습 (Superviserd Learning)	• 학습 데이터로 부터 하나의 함수를 유추해내기 위한 방법 • 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측 -정의: 입력 데이터에 대한 정답(레이블)이 있는 데이터를 사용하여 모델을 학습하는 방법입니다. -예시: 분류 문제(스팸 메일 분류), 회귀 문제(집 값 예측). -특징: 주어진 입력과 출력 쌍을 기반으로 모델을 학습하여 새로운 데이터에 대한 예측을 수행합니다.
비지도학습 (UnSuperviserd Learning)	• 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속함 • 지도학습 혹은 강화학습과는 다르게 달리 입력값에 대한 목표치가 주어지지 않는다. • 통계의 밀도 추정과 깊은 연관이 있으며, 데이터의 주요 특징을 요약하고 설명할 수 있다. • 군집화, 독립성분분석 방법 등 -정의: 정답(레이블)이 없는 데이터를 기반으로 패턴이나 구조를 발견하는 학습 방법입니다. -예시: 군집화(고객 그룹 분류), 차원 축소(주성분 분석). -특징: 데이터를 분류하거나 그룹으로 나누고, 데이터의 숨겨진 구조를 찾는 데 주로 사용됩니다.
준지도학습 (Semi-Superviserd Learning)	• 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습해 사용하는 것을 말함. • 많은 기계학습 연구자들이 목표값이 없는 데이터에 적은 양의 목표값을 표함한 데이터를 사용할 경우 학습 정확도에 있어서 상당한 좋아짐을 확인 • 두 개 이상의 학습기 각각이 예제를 통해 훈련되는 상호 훈련 방법 등이 있다. -정의: 일부 데이터는 정답(레이블)이 있고, 나머지 데이터는 없는 경우에 사용하는 학습 방법입니다. -예시: 소량의 레이블된 데이터와 대량의 레이블 없는 데이터로 학습. -특징: 레이블된 데이터가 적고, 비용을 줄이기 위해 대량의 레이블 없는 데이터를 활용하는 방식입니다. 지도학습과 비지도학습의 혼합 형태입니다.
강화학습 (Reinforcement Learning)	• 행동 심리학에서 영감 받았으며, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 순서를 선택하는 방법 • 강화학습 초점은 학습 과정에서의 성능이며, 이는 탐샘과 이용의 균형을 맞춤으로써 제고 된다. -정의: 행동(Action)을 통해 보상(Reward)을 최대화하는 방식으로 학습하는 방법입니다. -예시: 게임 AI, 로봇 제어, 자율주행. -특징: 에이전트가 환경과 상호작용하면서 얻는 보상에 따라 최적의 행동을 학습하는 방식입니다. 주어진 보상을 극대화하는 의사결정을 반복적으로 수행하며 학습합니다.

⑤기계학습 방법에 따른 인공지능 응용분야

지도학습	데이터를 라벨과 함께 제공하여 학습	분류	이미지 인식, 음성 인식,신용평가, 불량예측 등
지도학습	데이터를 라벨과 함께 제공하여 학습	회귀	주가 예측, 강우량 예측 등
비지도	데이터만 제공하여 학습	군집분석	텍스트 토픽 분석, 고객 세그멘테이션 등
		오토인코더 (AutoEncoder)	이상징후 탐지, 노이즈 제거, 텍스트 벡터 등
		생성적 적대 신경망 (GAN)	시뮬레이션 데이터 생성, 누락데이터 , 패션 데이터 생성 등
강화	선택 가능한 행동 중 보상을 최대화하며 학습	강화	게임 플레이어 생성, 로봇 학습 등

2) 인공지능 데이터 학습의 진화

① 전이학습 (Transfer Learning)
- 전이 학습은 기존의 학습된 모델의 지식을 새로운 문제에 적용하여 학습을 빠르고 효율적으로 수행하는 머신러닝 기법

- 비슷한 분야에서 학습된 딥러닝 모형을 다른 문제를 해결하기 위해 사용하고자 할 때 적은 양의 데이터로도 좋은 결과를 얻을 수 있다.
- 인식 문제의 경우 데이터의 표준화가 가능하여 사전학습 모형 입력형식에 맞출 수 있다.

② 전이학습 기반 사전학습 모형 (Pre-trained Model)
- 학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 학습 수행

- 데이터 학습량에 따라 점차 발전하는 것도 중요하지만, 응용력을 갖추는 것 또한 필수

- 상대적으로 적은 양의 데이터로 제한된 문제에 인공지능 적용이 가능하다.
-

③ BERT
- 2018년 구글에서 발표한 언어인식 사전학습모형

* 임베딩

특정 데이터를 숫자로 채워진 벡터, 행렬로 바꾸는 과정을 수학적으로 표현된 n차원 벡터들을 통해 컴퓨터가 관계를 유추

3) 빅데이터와 인공지능의 관계
① 인공지능을 위한 데이터 확보
- 인공지능이 성공적으로 구현되기 위해서 양질의 많은 데이터가 필요
- 인공지능 학습에 활용 될 수 있는 데이터로 가공이 필요하며, 학습가이드를 제공해주는 어노테이션이라는 작업이 필수

② 학습 데이터의 애노테이션 작업
- 많은 데이터를 확보 후, 학습이 가능한 데이터로 가공하는 작업. / 라벨을 붙이는 작업이라고 생각하면 된다.
- 작업의 특성상 많은 수작업이 동반되며, 이로 통해 인공지능 사업은 노동집약적이라는 인식을 만들어 냈다.

* 애노테이션

데이터상의 주석 작업으로 딥러닝과 같은 학습 알고리즘이 무엇을 학습해야하는지 알려 주는 표식 작업

③ 애노테이션 작읍을 위한 도구로써의 인공지능

4) 인공지능 기술 동향
① 기계학습 프레임워크 보급 확대 : 케라스, 텐서플로우 등

* 기계학습 프레임워크

인터페이스와 라이브러리, 툴 등 기계학습 모형 개발을 쉽고, 빠르게 하도록 지원하는 기반

② 생성적 적대 신경망 (GAN) 보급 : 생성자와 감별자로 구성된 모델로, 생성자는 데이터를 만들고, 감별자는 데이터 중 생성자가 만든 데이터를 식별하는 방식으로 서로 경쟁하며 학습한다.

③ 오토인코더 : 라벨이 설정되지 않은 학습 데이터로부터 효율적인 코드로 표현하도록 학습하는 신경망

④ 설명 가능한 인공지능 (XAI) : 원래 인공지능의 내부 구조는 복잡하고 알기 힘들었으나, 해당 인공지능은 결로 도출 과정의 근거를 차트나 수치, 자연어형태의 설명으로 제공

⑤기계학습 자동화 (AutoML) : 기계학습 전체의 과정 (전처리, 변수 생성, 알고리즘 선택 등)의 과정을 자동화해준다.

* 파라미터(매개변수)

어떤 시스템이나 함수의 특정한 성질을 나타내는 변수. 모델링에 의해 자동으로 결정

* 하이퍼 파라미터
모델링할 때 사용자가 직접 세팅해주는 값

5) 인공지능의 한계점과 발전방향

① 국내시장의 한계

- 국내에서 축적한 머신러닝 및 인공지능과 관련한 수하그 통계학적 이해도는 낮은 수준

- 데이터 확보 및 중용성에 대한 인식 부족

② 인공지능의 미래

- 마스킹이나 라벨링 등의 애노테이션 작업을 통한 학습용 데이터를 가공하는 산업이 확산

- 복잡한 BERT의 학습을 위한 구글 클라우드 서비스와 같은 확장된 개념의 데이터로 경제로 파생될 것으로 예쌍

* 데이터 경제는 수집, 학습용 데이터로의 가공, 전이학습용 사전학습 모형으로 구분되고 있다.