본문 바로가기

데이터 공부10

[웹크롤링]Python으로 잡코리아 채용 공고 크롤링하기 🕸️ Python으로 잡코리아 채용 공고 크롤링하기 🕸️BeautifulSoup 라이브러리를 활용한 웹 크롤링은 HTML에서 데이터를 추출하는 가장 일반적인 방법 중 하나입니다. 이 글에서는 잡코리아(Job Korea) 채용 정보를 크롤링하면서 HTML 구조, 주요 태그, CSS 선택자, BeautifulSoup 메서드 차이점 등 기초부터 심화된 내용까지 다뤄보겠습니다.📌 웹 크롤링 개념과 HTML 구조1. 웹 크롤링이란?웹 크롤링은 프로그램이 웹페이지의 데이터를 자동으로 읽고 필요한 정보를 추출하는 작업입니다. 이 작업은 HTML을 분석해 데이터를 가져오는 방식으로 이루어집니다.2. HTML 구조 이해하기HTML은 웹페이지를 구성하는 언어로, 태그()를 사용해 데이터를 구조화합니다. 태그는 계층적.. 2025. 1. 15.
Matplotlib에서 한글 오류 해결 방법 Matplotlib은 한글 폰트를 지원하지 않는 문제가 있다.그래프 출력시 한글 부분이 네모박스로 표시되면서 폰트가 깨지는 현상이 있다. warning:matplotlib.font_manager:findfont: font family 'nanumgothic' not found.[방법 1] import matplotlib.pyplot as pltimport matplotlib.font_manager as fm# 1. 폰트 경로 위치 / 나눔글꼴 경로 설정font_path = 'C:/Windows/Fonts/NanumGothic.ttf'# 폰트 이름 가져오기font_name = fm.FontProperties(fname=font_path).get_name()# 폰트 설정plt.rc('font', family.. 2024. 5. 14.
Pandas 판다스 내용 정리 - ② 데이터 살펴보기 , 시각화 Part 3 데이터 살펴보기- 데이터프레임 크기(행, 열) .shape - 데이터프레임의 행과 열의 수는  속성을 사용하여 확인할 수 있습니다.- 데이터프레임 기본정보 .info() - 데이터프레임의 기본 정보를 확인할 수 있습니다.이 메소드는 각 열의 데이터 타입, 비어 있지 않은 값의 개수 등을 보여줍니다. 판다스 자료형 설명: int64 int정수형 float64 float실수형 object string문자열datetime64, timedelta64없음 ( datetime 라이브러리 활용)날짜와 시간 관련 데이터3. 데이터프레임의 기술통계 정보 요약 .describe() - 숫자형 열에 대한 기술통계 정보(평균, 표준편차, 최소값, 최대값 등)를 요약하여 보여줍니다. 4. 각 열의 데이터 개수 ... 2024. 5. 14.
Pandas 판다스 내용 정리 - ① 자료구조 및 입출력 1. 데이터프레임 만들기- 데이터프레임은 2차원 배열이다.- 여러 개의 시리즈들이 한데 모여서 데이터프레임을 이루는 구조를 보여준다. 딕셔너리 -> 데이터프레임 변환 : pandas.DataFrame(딕셔너리 객체)2. 행 인덱스/ 열 이름 설정-직접 입력● 행 인덱스/열 이름 설정 : pandas.DataFrame( 2차원 배열, index = 행 인덱스 배열, columns = 열 이름 배열)● 행 인덱스 변경 : DataFrame 객체.index = 새로운 행 인덱스 배열● 열 인덱스 변경 : DataFrame 객체.columns = 새로운 열 인덱스 배열- rename● 행 인덱스 변경 : DataFrame 객체.rename(index = {기존 인덱스 : 새로운 인덱스, ...})● 열 인덱스 .. 2024. 5. 13.
파이썬 머신러닝 완벽 가이드 (권철민) - 분류 - ① 결정트리 [파이썬 머신러닝 완벽 가이드 (권철민)]Chapter 04 분류 01. 분류(Classification)의 개요 지도학습이란 label과 같은 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 학습 방법이다.  지도학습의 대표적인 유형인 분류(Cassification)는 학습 데이터로 주어진 데이터의 feature와 label값(결정 값, 클래스 값)을 ML 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터가 주어질 때 미지의 label 값을 예측하는 것이다.분류의 다양한 ML 알고리즘으로 구현 할 수 있다.베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes)독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Re.. 2024. 5. 2.
파이썬 머신러닝 완벽 가이드(권철민) - Chapter 03 평가 -② [파이썬 머신러닝 완벽 가이드 (권철민)] 2장. 사이킷런으로 시작하는 머신러닝 - Chapter 03 평가 [분류의 성능평가 지표] • 정확도(accuracy) • 오차 행렬(confusion matrix) • 정밀도(precision) • 재현율(recall) • F1 스코어 • ROC AUC 1. F1 스코어(F1 Score) F1 score는 정밀도와 재현율을 결합한 지표입니다., 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가집니다. F1 스코어는 정밀도(Precision)와 재현율(Recall)의 조화 평균(Harmonic Mean)을 나타내는 지표입니다. 조화 평균은 정밀도와 재현율의 값이 둘 다 높아야 전체적으로 높은 값을 얻을 수 있기 때문에, 두.. 2024. 4. 19.