본문 바로가기

전체 글27

01. 머신러닝(marchine learning)이란? 1. 머신러닝이란? 머신러닝은 인공지능(AI)의 한 분야로, 컴퓨터가 명시적으로 프로그래밍되지 않아도 데이터로부터 학습하고, 패턴을 인식하며, 결정을 내릴 수 있게 하는 기술입니다. 머신러닝 모델은 대량의 데이터를 처리하여 그 안의 숨겨진 규칙이나 패턴을 찾아낼 수 있으며, 이를 기반으로 예측(prediction)이나 분류(classification), rnswlq(clustering) 알고리즘 등의 작업을 수행할 수 있습니다. 예로 들면, 주가, 환율 등 경제지표 예측, 은행에서 고객을 분류하여 대출을 승하거나 거절하는 문제, 비스산 소비패터을 가진 고객 유형을 군집으로 묶어내는 문제 등이 있다. 2. 지도학습, 비지도학습이란? 지도학습(Supervised Learning): 지도학습은 입력과 그에 해.. 2024. 4. 15.
No08_수치적 기술통계 - 연관성 [탐색적 데이터 분석] 수치적 기술통계에서 연관성을 이해하는 데 중요한 개념에는 공분산, 피어슨 상관계수, 스피어만 상관계수, 켄달의 상관계수가 있습니다. 비선형적 관계나 순위 데이터에 더 적합합니다. 공분산은 두 변수 간의 관계의 방향 피어슨 상관계수는 두 변수 간의 선형적 관계의 강도와 방향을 측정 스피어만 상관계수와 켄달의 상관계수는 순위 기반의 상관 관계를 측정 A. 두 숫자형 변수의 선형적 연관성 - 선형적 연관성의 방향과 강도 1. 양의 연관성 - 하나가 커지면 다른 하나도 커진다. - 하나가 작아지면 다른 하나도 작아진다 . 2. 음의 연관성 - 하나가 작어지면 다른 하나는 커진다. - 하나가 커지면 다른 하나는 작아진다. 3. 무상관 B. 연관성의 측도 - 공분산(Covariance) 공분.. 2024. 4. 14.
No07_수치적 기술통계 - 변동성 [탐색적 데이터 분석] A. 중심 위치 척도 탐색적 데이터 분석에서 중심위치척도는 데이터 집합의 대표값을 의미합니다. 이를 통해 데이터가 어느 지점에 위치하는지를 파악할 수 있죠. 대표적인 중심위치척도에는 평균(mean), 중앙값(median), 최빈값(mode)이 있습니다. 평균(Mean)은 모든 데이터 값의 합을 데이터의 개수로 나눈 값입니다. 데이터의 총합을 대표하는 가장 일반적인 척도 중위수, 중앙값(Median)은 데이터를 크기 순으로 나열했을 때 중앙에 위치하는 값입니다. 이상치의 영향을 덜 받아서 때때로 평균보다 선호되기도 해요. 최빈값(Mode)은 데이터 집합에서 가장 자주 나타나는 값입니다. 범주형 데이터에서 유용하게 사용되죠. 이 세 가지 척도를 함께 분석하면 데이터의 분포와 형태에 대.. 2024. 4. 13.
[웹크롤링] 파이썬 사람인 추출하기 공부/select, select_one - 파이썬을 사용한 웹 스크래핑 BeautifulSoup과 requests 라이브러리를 활용하여 채용 정보를 크롤링하는 방법을 사용 ★ 아래의 유튜브에서 보고 공부하고 따라했습니다. • 출처 : 오토코더 / 파이썬(Python) - 사람인 채용정보 모두 추출(Feat. 웹크롤링) 링크 : https://www.youtube.com/watch?v=TF-6OdoZm6k 데이터분석 분야로 취업공고를 알아보고, 지원하는 도중, 관련 정보를 크롤링해서 볼 수 있다면 더욱 편하겠다는 생각에 크롤링을 해보자고 생각이 들어 작업을 해보게 되었다. ※ 진행중 발생한 문제점 : 셀리니움(selenium)을 사용하여 페이지를 넘겨가면서 페이지 한장 한장 크롤링을 진행을 할려고 했었다. 다만 사람인에서 셀레니움으로 접근하여 .. 2024. 4. 12.
NO.5 정규분포, 표준정규분포 A. 정규분포 (Normal Distribution) 정규분포는 연속 확률 분포의 하나로, 많은 자연 현상이나 사회 현상에서 발생하는 데이터의 분포를 모델링하는 데 자주 사용됩니다. 확률 변수 \( X \)가 평균이 \( mu \), 분산이 \(\sigma^2 \)이고 다음 확률함수를 가질때 \( X \)는 정규분포를 따른다고 함. 정규분포(normal distribution)는 가장 대표적인 연속 확률 분포(continuous probability distribution)이며 가우스 분포(Gaussian distribution)라고도 합니다. 1. 확률밀도함수 (PDF) 정규분포의 확률밀도함수는 다음 공식으로 주어집니다: $$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\.. 2024. 4. 2.
No4.이항분포, 포아송분포, 지수분포, 감마분포 ※ 베르누이 시행이란? 베르누이 시행은 단 한 번의 실험으로서 오직 두 가지 결과만 가능한 시행을 의미합니다. 가장 일반적인 예는 동전 던지기이며, 앞면이 나올 확률과 뒷면이 나올 확률이 동일합니다. ``` 표본공간 S는 다음과 같습니다: $$ S = { H, T } $$ 여기서 H는 앞면(Head), T는 뒷면(Tail)을 나타냅니다. 앞면이 나올 확률은 다음과 같습니다: $$ P(H) = \frac{1}{2} $$ 즉 매 시행마다 아래의 조건을 만족하는 실험 - ' 성공' 또는 '실패'의 오직 두가지 가능한 결과만 가짐 - '성공의 확률이 ( p )로 일정함 ex) 동전 던지기 A. 이항분포 (Binomial Distribution) 이항분포는 고정된 수의 독립적인.. 2024. 3. 28.