본문 바로가기

분류 전체보기27

파이썬 머신러닝 완벽 가이드(권철민) - Chapter 03 평가 -① [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 - Chapter 03 평가 [머신러닝 프로세스] 데이터 가공/변환 ▶ 모델 학습/예측 ▶ 평가 성능평가 지표(Evaluation Metric) 일반적으로 모델이 분류냐 회귀냐에 따라 여러종류로 나뉘어진다. 회귀 모델 : 대부분 실제값과 오차값의 오차 평균값에 기반. 예측오차를 자기고 정규화 수준을 재가공하는 방식 분류 모델 : 일반적을 ㅗ실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적은가에 기반. 이진분류에서는 정확도 보다 다른 지표가 더 중요시되는 경우가 많다. [분류의 성능평가 지표] • 정확도(accuracy) • 오차 행렬(confusion matrix) • 정밀도(precision) • 재현율(r.. 2024. 4. 19.
NO11_점추정과 구간추정 점추정과 구간추정 A. 통계적 추론 - 추정 개요 1. 추정 개념 모수의 추정에 사용되는 두 가지 방법의 의미와 중요성에 대해 논의합니다. 표본을 통해 모집단의 모수를 추정하는 것은 통계학의 중요한 분야 중 하나입니다. - 모수는 모집단의 특성을 보여주는 값으로, 일반적으로 \( \theta \) (세타)로 표현한다. 2. 점추정과 구간추정 점추정 (Point Estimation): 하나의 모수를 하나의 값으로 추정합니다. 이는 표본 데이터를 바탕으로 한 모집단의 모수 추정치를 제공합니다. 구간추정 (Interval Estimation): 모수가 포함될 가능성이 있는 구간으로 모수를 추정합니다. 이는 신뢰도를 기반으로 한 범위 안에서 모수가 존재할 확률을 제시합니다. • 점추정 (Point Estimat.. 2024. 4. 18.
통계적 머신러닝 - Sklearn /데이터 인코딩 [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 데이터 전처리(Data Preprocessing) ML 알고리즘은 어떤 데이터를 입력하는지에 따라 결과가 크게 바뀔 수 있음(Garbage In, Garbage Out) 사이킷런의 ML 알고리즘 적용 전에 처리해야 할 사항이 있습니다, 결손값(NaN, Null)을 허용하지 않는다 따라서 고정된 다른 값으로 변환해야 함 Null 값이 얼마 되지 않는 경우 feature의 평균값 등으로 간단 대체 가능 Null 값이 대부분인 경우 해당 feature은 drop 하는 것이 좋음(제거) Null 값이 일정 수준 이상(명확한 기준은 없음)인 경우 해당 feature가 중요도가 높다면 단순 평균 등으로 대체할 경우 예측 왜곡 심할 수 .. 2024. 4. 18.
No10.[추정과 검정]통계적 추론 개요, 표본추출법 통계적 추론은 모집단으로부터 얻은 표본 데이터를 기반으로 모집단의 특성을 추론하는 과정을 말합니다. 이 과정에서는 대부분의 경우, 전체 모집단을 조사하는 것이 불가능하기 때문에, 표본을 통해 모집단에 대한 결론을 내리게 됩니다. 통계적 추론은 크게 추정과 검정의 두 가지 주요 과정으로 나눌 수 있습니다. 모집단(Population): 관심의 대상이 되는 전체 집단으로, 연구나 분석의 대상이 되는 모든 개체나 사건의 집합입니다. 예를 들어, 모든 고등학교 학생, 모든 나무 등이 될 수 있습니다. 모수(Parameter): 모집단의 특성을 나타내는 수치로, 예를 들어 모집단의 평균, 분산, 비율 등이 이에 해당합니다. 모수는 일반적으로 알려져 있지 않으며, 통계적 방법을 통해 추정합니다. 표본(Sample).. 2024. 4. 17.
통계적 머신러닝 - Sklearn / 교차분석/ KFold / cross_val_score [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 01. 사이킷런 소개와 특징 - 사이킷런(scikit-learn)은 가장 많이 사용 되는 머신러닝 라이브러리 중 하나. - 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적 개발 라이브러리 제공 특징 - 가장 파이썬스러운 API 제공 - 머신러닝 위한 매우 다양한 알고리즘 개발 위한 편리한 프레임워크, API 제공 - 오랜 기간 실전 검증, 많은 환경에서 사용되는 성숙한 라이브러리 임포트 : import sklearn 02. 붓꽃 품종 예측하기 분류(Classification)은 대표적인 지도학습(Supervised Learning) 방법의 하나입니다. 학습을 위한 다양한 특징과 레이블(label, 분류 결정값) 데이터로 모델.. 2024. 4. 17.
No09_그래프에 의한 기술통계 그래프를 이용한 자료의 정리 - 자료의 유형에 맞는 그래프를 이용하여, 한눈에 알아볼 수 있게 자료를 시각화 할 수 있다. [다양한 종류의 그래프를 이용한 시각화 기법] '어떤 타입의 데이터에 대해서 무엇을 보고 싶을 때 그리는가?' 데이터 시각화는 데이터를 분석하고 이해하는 데 매우 중요한 과정입니다. 그래프를 이용한 자료 정리는 복잡한 데이터 집합에서 유용한 정보를 추출하고, 데이터 사이의 관계를 명확히 보여줄 수 있습니다. 데이터는 크게 질적 자료와 양적 자료로 분류할 수 있으며, 이에 따라 적절한 그래프를 선택해야 합니다. 1. 데이터 시각화 개요 데이터 시각화는 크게 질적 자료와 양적 자료를 다룹니다. 질적 자료: 카테고리 또는 그룹으로 표현되는 비수량적 데이터입니다. - 1개 변수 : 바차트(.. 2024. 4. 16.