본문 바로가기

데이터 공부/머신러닝 공부5

파이썬 머신러닝 완벽 가이드 (권철민) - 분류 - ① 결정트리 [파이썬 머신러닝 완벽 가이드 (권철민)]Chapter 04 분류 01. 분류(Classification)의 개요 지도학습이란 label과 같은 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 학습 방법이다.  지도학습의 대표적인 유형인 분류(Cassification)는 학습 데이터로 주어진 데이터의 feature와 label값(결정 값, 클래스 값)을 ML 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터가 주어질 때 미지의 label 값을 예측하는 것이다.분류의 다양한 ML 알고리즘으로 구현 할 수 있다.베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes)독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Re.. 2024. 5. 2.
파이썬 머신러닝 완벽 가이드(권철민) - Chapter 03 평가 -② [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 - Chapter 03 평가 [분류의 성능평가 지표] • 정확도(accuracy) • 오차 행렬(confusion matrix) • 정밀도(precision) • 재현율(recall) • F1 스코어 • ROC AUC 1. F1 스코어(F1 Score) F1 score는 정밀도와 재현율을 결합한 지표입니다., 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가집니다. F1 스코어는 정밀도(Precision)와 재현율(Recall)의 조화 평균(Harmonic Mean)을 나타내는 지표입니다. 조화 평균은 정밀도와 재현율의 값이 둘 다 높아야 전체적으로 높은 값을 얻을 수 있기 때문에, 두.. 2024. 4. 19.
통계적 머신러닝 - Sklearn /데이터 인코딩 [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 데이터 전처리(Data Preprocessing) ML 알고리즘은 어떤 데이터를 입력하는지에 따라 결과가 크게 바뀔 수 있음(Garbage In, Garbage Out) 사이킷런의 ML 알고리즘 적용 전에 처리해야 할 사항이 있습니다, 결손값(NaN, Null)을 허용하지 않는다 따라서 고정된 다른 값으로 변환해야 함 Null 값이 얼마 되지 않는 경우 feature의 평균값 등으로 간단 대체 가능 Null 값이 대부분인 경우 해당 feature은 drop 하는 것이 좋음(제거) Null 값이 일정 수준 이상(명확한 기준은 없음)인 경우 해당 feature가 중요도가 높다면 단순 평균 등으로 대체할 경우 예측 왜곡 심할 수 .. 2024. 4. 18.
통계적 머신러닝 - Sklearn / 교차분석/ KFold / cross_val_score [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 01. 사이킷런 소개와 특징 - 사이킷런(scikit-learn)은 가장 많이 사용 되는 머신러닝 라이브러리 중 하나. - 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적 개발 라이브러리 제공 특징 - 가장 파이썬스러운 API 제공 - 머신러닝 위한 매우 다양한 알고리즘 개발 위한 편리한 프레임워크, API 제공 - 오랜 기간 실전 검증, 많은 환경에서 사용되는 성숙한 라이브러리 임포트 : import sklearn 02. 붓꽃 품종 예측하기 분류(Classification)은 대표적인 지도학습(Supervised Learning) 방법의 하나입니다. 학습을 위한 다양한 특징과 레이블(label, 분류 결정값) 데이터로 모델.. 2024. 4. 17.
01. 머신러닝(marchine learning)이란? 1. 머신러닝이란? 머신러닝은 인공지능(AI)의 한 분야로, 컴퓨터가 명시적으로 프로그래밍되지 않아도 데이터로부터 학습하고, 패턴을 인식하며, 결정을 내릴 수 있게 하는 기술입니다. 머신러닝 모델은 대량의 데이터를 처리하여 그 안의 숨겨진 규칙이나 패턴을 찾아낼 수 있으며, 이를 기반으로 예측(prediction)이나 분류(classification), rnswlq(clustering) 알고리즘 등의 작업을 수행할 수 있습니다. 예로 들면, 주가, 환율 등 경제지표 예측, 은행에서 고객을 분류하여 대출을 승하거나 거절하는 문제, 비스산 소비패터을 가진 고객 유형을 군집으로 묶어내는 문제 등이 있다. 2. 지도학습, 비지도학습이란? 지도학습(Supervised Learning): 지도학습은 입력과 그에 해.. 2024. 4. 15.