본문 바로가기
728x90

대학공부58

실습 3차시: Linear/Logistic Regression Simple Linear Regression 가장 간단하고 직관적인 기계학습 모델은 데이터의 경향에 맞게 선을 그어주는 것입니다. 이때 데이터에 대해 가장 잘 맞는 선을 찾아가는 과정을 "Linear Regression"이라고 합니다. import matplotlib.pyplot as plt months = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12] revenue = [52, 74, 79, 95, 115, 110, 129, 126, 147, 146, 156, 184] plt.plot(months, revenue, "o") plt.title("Sandra's Lemonade") plt.xlabel("months") plt.ylabel("revenue") plt.show() Po.. 2023. 10. 13.
실습 2차시: DT *Colab 이용 !pip install mglearn 지니 불순도 (Gini Impurity) 지니 불순도는 결정 트리의 분할기준 중 하나입니다. 아래 두개의 트리를 살펴봅시다. 둘 중 어느 트리가 학생이 성적을 더 높게 받을 수 있을지 예측하는데 유용할까요? 이 질문은 한 세트의 instance 들에 대해 지니 불순도 를 계산함으로써 답할 수 있습니다. 지니 불순도를 찾기 위해서는 1에서 시작해서 세트의 각 class 비율의 제곱을 빼면 됩니다. Gini Impurity=1−Gini Index=1−∑pi^2 (i=1 ~ K) 위 식에서 K은 class label의 개수이며, pi은 i번째 class label의 비율입니다. 예를 들어, A class인 instance가 3개 있고 B class인 in.. 2023. 10. 13.
실습 1차시: ZeroR, OneR, Naive Bayes Classifier *Colab 이용 import numpy as np import pandas as pd import sklearn print(sklearn.__version__) #1.2.2 # 데이터 받기 url = "https://raw.githubusercontent.com/inikoreaackr/ml_datasets/main/playgolf.csv" df = pd.read_csv(url) # 데이터 첫 다섯 instance 확인 df.head() OUTLOOK TEMPERATURE HUMIDITY WINDY PLAY GOLF Rainy Hot High False No Rainy Hot High True No Overcast Hot High False Yes Sunny Mild High False Yes Sunny.. 2023. 10. 11.
Deep NN MLP (=shallow NN): hidden layer 1~2개 -> 모든 non-linear 형태의 모델을 생성 가능 feature가 알려진 모든 정형 데이터는 MLP에서 더 성능이 뛰어남 이미지, 소리, 텍스트 데이터는 다루지 못함 해결 idea: hidden layer를 더 늘리기 -> Deep Neural Network: hidden layer가 10개 정도 문제: hidden layer의 depth를 늘리자 학습이 안됨 - 이유: Vanishing Gradient 문제 Vanishing Gradient 문제: 미분할 수록 gradient의 값이 점점 작아지면서 사라짐 - sigmoid 함수때문에 발생 Backpropagation에서 y(sigmoid)가 계속 미분되면서 적용됨 gradient는.. 2023. 10. 11.
Feature selection, SVM, 앙상블 Feature selection: 기존 features의 subset을 선택 feature의 수가 많을 때 상대적으로 sample의 수가 적으면 모델이 overfit됨 필요한 feature를 골라 사용하여 성능 향상 제거해야 하는 feature: irrelevant, redundant features 어떻게 판단? filter methods: 하나씩 제거해서 만든 모델의 성능을 각각 평가하여 feature의 순위를 매김. feature를 개별적으로 평가. wrapper methods: 모든 가능한 조합에 대하여 test하여 최적의 조합을 선택. feature가 서로 독립적이지 않으므로 사용. complexity가 높음. embedded methods: 여러 머신러닝 모델로 training 시킨 후 그 모.. 2023. 10. 11.
Evaluation available data가 전체 domain은 잘 표현하는지, 모델의 성능을 어떻게 평가? 그 외의 신뢰성, 공정성, 윤리성, 안전성의 문제가 존재 원인은 데이터 or 최적화 알고리즘에서 초래됨 test data set을 가지고 평가하고자 하는 성능을 "Generalization(일반화)"하는 방법 다양한 모델 사용, 특정 모델의 parameter 값에 따라, feature에 따라... 모델의 정확성을 위한 training / test / validation set의 적절한 비율 dig data set: 60% / 20% / 20% middle size data set(충분한 양): training 60%, test 40% dataset의 크기가 작을 경우? training set으로 test: gen.. 2023. 10. 11.