본문 바로가기

전체 글26

No08_수치적 기술통계 - 연관성 [탐색적 데이터 분석] 수치적 기술통계에서 연관성을 이해하는 데 중요한 개념에는 공분산, 피어슨 상관계수, 스피어만 상관계수, 켄달의 상관계수가 있습니다. 비선형적 관계나 순위 데이터에 더 적합합니다. 공분산은 두 변수 간의 관계의 방향 피어슨 상관계수는 두 변수 간의 선형적 관계의 강도와 방향을 측정 스피어만 상관계수와 켄달의 상관계수는 순위 기반의 상관 관계를 측정 A. 두 숫자형 변수의 선형적 연관성 - 선형적 연관성의 방향과 강도 1. 양의 연관성 - 하나가 커지면 다른 하나도 커진다. - 하나가 작아지면 다른 하나도 작아진다 . 2. 음의 연관성 - 하나가 작어지면 다른 하나는 커진다. - 하나가 커지면 다른 하나는 작아진다. 3. 무상관 B. 연관성의 측도 - 공분산(Covariance) 공분.. 2024. 4. 14.
No07_수치적 기술통계 - 변동성 [탐색적 데이터 분석] A. 중심 위치 척도 탐색적 데이터 분석에서 중심위치척도는 데이터 집합의 대표값을 의미합니다. 이를 통해 데이터가 어느 지점에 위치하는지를 파악할 수 있죠. 대표적인 중심위치척도에는 평균(mean), 중앙값(median), 최빈값(mode)이 있습니다. 평균(Mean)은 모든 데이터 값의 합을 데이터의 개수로 나눈 값입니다. 데이터의 총합을 대표하는 가장 일반적인 척도 중위수, 중앙값(Median)은 데이터를 크기 순으로 나열했을 때 중앙에 위치하는 값입니다. 이상치의 영향을 덜 받아서 때때로 평균보다 선호되기도 해요. 최빈값(Mode)은 데이터 집합에서 가장 자주 나타나는 값입니다. 범주형 데이터에서 유용하게 사용되죠. 이 세 가지 척도를 함께 분석하면 데이터의 분포와 형태에 대.. 2024. 4. 13.
[웹크롤링] 파이썬 사람인 추출하기 공부/select, select_one - 파이썬을 사용한 웹 스크래핑 BeautifulSoup과 requests 라이브러리를 활용하여 채용 정보를 크롤링하는 방법을 사용 ★ 아래의 유튜브에서 보고 공부하고 따라했습니다. • 출처 : 오토코더 / 파이썬(Python) - 사람인 채용정보 모두 추출(Feat. 웹크롤링) 링크 : https://www.youtube.com/watch?v=TF-6OdoZm6k 데이터분석 분야로 취업공고를 알아보고, 지원하는 도중, 관련 정보를 크롤링해서 볼 수 있다면 더욱 편하겠다는 생각에 크롤링을 해보자고 생각이 들어 작업을 해보게 되었다. ※ 진행중 발생한 문제점 : 셀리니움(selenium)을 사용하여 페이지를 넘겨가면서 페이지 한장 한장 크롤링을 진행을 할려고 했었다. 다만 사람인에서 셀레니움으로 접근하여 .. 2024. 4. 12.
NO.5 정규분포, 표준정규분포 A. 정규분포 (Normal Distribution) 정규분포는 연속 확률 분포의 하나로, 많은 자연 현상이나 사회 현상에서 발생하는 데이터의 분포를 모델링하는 데 자주 사용됩니다. 확률 변수 \( X \)가 평균이 \( mu \), 분산이 \(\sigma^2 \)이고 다음 확률함수를 가질때 \( X \)는 정규분포를 따른다고 함. 정규분포(normal distribution)는 가장 대표적인 연속 확률 분포(continuous probability distribution)이며 가우스 분포(Gaussian distribution)라고도 합니다. 1. 확률밀도함수 (PDF) 정규분포의 확률밀도함수는 다음 공식으로 주어집니다: $$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\.. 2024. 4. 2.
No4.이항분포, 포아송분포, 지수분포, 감마분포 ※ 베르누이 시행이란? 베르누이 시행은 단 한 번의 실험으로서 오직 두 가지 결과만 가능한 시행을 의미합니다. 가장 일반적인 예는 동전 던지기이며, 앞면이 나올 확률과 뒷면이 나올 확률이 동일합니다. ``` 표본공간 S는 다음과 같습니다: $$ S = { H, T } $$ 여기서 H는 앞면(Head), T는 뒷면(Tail)을 나타냅니다. 앞면이 나올 확률은 다음과 같습니다: $$ P(H) = \frac{1}{2} $$ 즉 매 시행마다 아래의 조건을 만족하는 실험 - ' 성공' 또는 '실패'의 오직 두가지 가능한 결과만 가짐 - '성공의 확률이 ( p )로 일정함 ex) 동전 던지기 A. 이항분포 (Binomial Distribution) 이항분포는 고정된 수의 독립적인.. 2024. 3. 28.
No3.확률변수와 확률분포의 특성치 A. 확률변수의 개념 확률변수는 확률적인 실험의 결과에 수치를 할당하는 변수입니다.(표본공간에성 정의된 실수 값 함수) 이는 실험의 결과를 실수집합에 매핑하는 함수로, 각 결과에 대한 확률을 제공합니다. 확률변수는 대개 대문자로 표기되며, 예를 들어 X, Y와 같은 형태를 취합니다. B. 확률분포함수 확률분포함수는 확률변수의 각 결과값에 대한 확률을 설명합니다. 이 함수는 확률변수가 특정 값 이하가 될 확률을 나타내는 누적분포함수(CDF)와 확률변수가 특정 값을 취할 확률을 나타내는 확률질량함수(PMF) 또는 확률밀도함수(PDF)로 구분됩니다. 이산 확률변수 : 확률질량함수가 사용되며, 특정 값을 취할 확률을 직접 나타냅니다./확률변수가 취할 수 있는 값이 셀 수 있는 경우 ex) 고객, 사고 건수, 불.. 2024. 3. 28.