본문 바로가기

728x90

파이썬9

(머신러닝 with 파이썬) Model Selection / train_test_split, K-fold CV, Startifield K-fold CV, GridSearch CV 이번에는 Model Selection에 대해서 알아보겠습니다. 1. Model Selection이란? Model Selection(모형 선택)은 머신 러닝이나 통계적 모델링에서 가장 적합한 모델을 선택하는 과정을 말합니다. 이는 데이터 분석의 중요한 단계 중 하나로, 1) 어떤 종류의 모델을 사용할 것인지, 2) 그 모델의 하이퍼파라미터를 어떻게 설정하 것인지를 결정하는 과정을 포함합니다. Model Selection이 중요한 이유는 아래와 같습니다. a) Over-fitting 또는 Under-fitting 을 방지 : 너무 복잡한 모델을 선택하여 train 데이터에 딱 맞게 만들어진 모델은 새로운 데이터를 예측하는데에는 적합하지 않는 문제인 Over-fitting 문제를 야기합니다. 반대로, 너무 단.. 2023. 8. 16.

[데이터분석] 웹 크롤링(Web Crawling) 기초 (파이썬, 코랩) 웹 크롤링의 기초에 대해서 알아보겠습니다. 1. 웹 크롤링(Web Crawling) / Selenium 라이브러리 / Selenium의 webdriver 웹 크롤링(Web Crawling)이란? - 웹 크롤링은 인터넷 상의 웹 페이지들을 자동으로 탐색하고 필요한 정보를 수집하는 프로세스를 말합니다. - 대표적인 웹 크롤링의 활용 사례는 1)정보 수집, 2)검색 엔진의 색인 구축, 3)가격 비교 웹사이트, 4)뉴스 집계 사이트 등 다양한 목적으로 활용될 수 있습니다. Selenium 라이브러리란? - Selenium은 웹 어플리케이션 자동화 및 테스트를 위한 포터블(Portable) 프레임워크 입니다. - 이를 활용해 웹 사이트를 테스트하고 브라우저 동작을 자동화할 수 있습니다. 이번 포스팅에서는 Sele.. 2023. 8. 15.

(딥러닝 with 파이썬) 아이리스(iris/분꽃) 데이터 다중분류 문제 이번에 알아볼 문제는, 다중분류문제이다. 다중분류 문제란, 타겟(또는 종속함수 / Response)가 여러가지 클래스를 가지는 경우를 말한다. 지난번에 알아본 피마인디언의 당뇨병 예측의 경우, 타겟이 질병유무 이므로, 질병(1) 또는 정상(0)으로만 분류가 된다. 그렇기에, 1)손실함수는 binary_crossentropy를 사용했고, 2)마지막 히든레이어에서 아웃풋 레이어로 전파되는 활성화 함수는 simoid 함수를 사용했다. 하지만, 이번에 알아볼 아이리스 품종 분류 문제의 경우, 타겟이 아이리스의 품종이며 데이터에 제시된 품종은 총 3가지의 품종(setoa / versicolor / virginica)이다. 이진 분류의 경우 활성화 함수의 값이 0.5 이하면 미발생 / 0.5 이상이면 발생으로 분류.. 2022. 8. 5.

(딥러닝 with 파이썬) 당뇨병 예측 (피마 인디언의 당뇨병 예측) - 1) 데이터 시각화 "당뇨병(diabete) 데이터"로 유명한 데이터셋인, "피마 인디언의 당뇨병" 데이터를 통해서, 1. 탐색적 데이터 분석(시각화) 2. 딥러닝을 통한 당뇨병 여부 예측 을 진행하겠습니다. 1. 탐색적 데이터 분석(EDA / Exploratory Data Analysis) 피마 인디언 당뇨병에 대한 데이터의 구조는 아래와 같다. 총 768명의 인디언에 대한 데이터가 수집되어있으며, 각 인디언들마다 8개의 변수에 대한 내용이 기록되어있다. 각 변수에 대한 설명은 아래와 같다. 변수1 : 과거 임신 횟수 변수2 : 포도당 부하 검사 2시간 후 공복혈당 농도(mm Hg) 변수3 : 확장기 혈압(mm Hg) 변수4 : 삼두근 피부 주름 두께(mm) 변수5 : 혈청 인슐린(2-hour, mu U/ml) 변수6 :.. 2022. 8. 2.

이전 1 2 3 다음

728x90

티스토리툴바