본문 바로가기

데이터 공부10

통계적 머신러닝 - Sklearn /데이터 인코딩 [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 데이터 전처리(Data Preprocessing) ML 알고리즘은 어떤 데이터를 입력하는지에 따라 결과가 크게 바뀔 수 있음(Garbage In, Garbage Out) 사이킷런의 ML 알고리즘 적용 전에 처리해야 할 사항이 있습니다, 결손값(NaN, Null)을 허용하지 않는다 따라서 고정된 다른 값으로 변환해야 함 Null 값이 얼마 되지 않는 경우 feature의 평균값 등으로 간단 대체 가능 Null 값이 대부분인 경우 해당 feature은 drop 하는 것이 좋음(제거) Null 값이 일정 수준 이상(명확한 기준은 없음)인 경우 해당 feature가 중요도가 높다면 단순 평균 등으로 대체할 경우 예측 왜곡 심할 수 .. 2024. 4. 18.
통계적 머신러닝 - Sklearn / 교차분석/ KFold / cross_val_score [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 01. 사이킷런 소개와 특징 - 사이킷런(scikit-learn)은 가장 많이 사용 되는 머신러닝 라이브러리 중 하나. - 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적 개발 라이브러리 제공 특징 - 가장 파이썬스러운 API 제공 - 머신러닝 위한 매우 다양한 알고리즘 개발 위한 편리한 프레임워크, API 제공 - 오랜 기간 실전 검증, 많은 환경에서 사용되는 성숙한 라이브러리 임포트 : import sklearn 02. 붓꽃 품종 예측하기 분류(Classification)은 대표적인 지도학습(Supervised Learning) 방법의 하나입니다. 학습을 위한 다양한 특징과 레이블(label, 분류 결정값) 데이터로 모델.. 2024. 4. 17.
01. 머신러닝(marchine learning)이란? 1. 머신러닝이란? 머신러닝은 인공지능(AI)의 한 분야로, 컴퓨터가 명시적으로 프로그래밍되지 않아도 데이터로부터 학습하고, 패턴을 인식하며, 결정을 내릴 수 있게 하는 기술입니다. 머신러닝 모델은 대량의 데이터를 처리하여 그 안의 숨겨진 규칙이나 패턴을 찾아낼 수 있으며, 이를 기반으로 예측(prediction)이나 분류(classification), rnswlq(clustering) 알고리즘 등의 작업을 수행할 수 있습니다. 예로 들면, 주가, 환율 등 경제지표 예측, 은행에서 고객을 분류하여 대출을 승하거나 거절하는 문제, 비스산 소비패터을 가진 고객 유형을 군집으로 묶어내는 문제 등이 있다. 2. 지도학습, 비지도학습이란? 지도학습(Supervised Learning): 지도학습은 입력과 그에 해.. 2024. 4. 15.
[웹크롤링] 파이썬 사람인 추출하기 공부/select, select_one - 파이썬을 사용한 웹 스크래핑 BeautifulSoup과 requests 라이브러리를 활용하여 채용 정보를 크롤링하는 방법을 사용 ★ 아래의 유튜브에서 보고 공부하고 따라했습니다. • 출처 : 오토코더 / 파이썬(Python) - 사람인 채용정보 모두 추출(Feat. 웹크롤링) 링크 : https://www.youtube.com/watch?v=TF-6OdoZm6k 데이터분석 분야로 취업공고를 알아보고, 지원하는 도중, 관련 정보를 크롤링해서 볼 수 있다면 더욱 편하겠다는 생각에 크롤링을 해보자고 생각이 들어 작업을 해보게 되었다. ※ 진행중 발생한 문제점 : 셀리니움(selenium)을 사용하여 페이지를 넘겨가면서 페이지 한장 한장 크롤링을 진행을 할려고 했었다. 다만 사람인에서 셀레니움으로 접근하여 .. 2024. 4. 12.