다항 논리 회귀를 할떈 항상 OneHotEncoding을 해줘야된다.
상식 : df.head() default Value:5 => 자료 찾아봄~~
위에 저거 (header)명칭이 안나와있어서 이런 경우에는 일일히 다 정해줘야된다.
header의 내용을 채워준다.
name은 와인의 종류 입력값은 name제외한 모든 칼럼
출력값은 name이 될것이다. 3개의 종류로 나눠짐
개수는 3가지로 분류됨
비어있는행을 확인해봤더니 모두 괜찮게나옴 좋은값이다~
name칼럼을 제외하면 모두 input값이기 때문에 name 칼럼만 드랍을 해주는 명령어를 쓴다.
이거를 datatype 32bit =>float32 이걸로 바꿔줘야 소수점으로 인식이 가능하다.
x,y 데이터 나누기
표준화를 StandardScaler()를 이용한다. 표준화하기전에 값은 값의 차이가 굉장히 많이 나는데
표준화후에 0과1사이로 알아보기좋게 표기
one hot encoding이되면 이렇게 종류에 따라 1의 위치를 순서대로 위치에 잡아준다.
x data 는 표준화된 값을 넣어주고 y data는 One-hot encoded된 값을 넣어줘야된다. test size는 20% 즉 training set이 80%라는 소리다. 학습 데이터는 142개 val_data 36개 13 Xdata feature의 개수 3은 와인의 종류 3가지
이진 논리회귀와 다항논리회귀의 차이점
1)와인의 종류가 3개를 예측해야돼서 dense가 3
2)sigmoid x -> softmax 다항논리회귀
loss function은 원래는 binaryCrossEntropy로 뺏었는데 이번에는 categorical_crossentropy를 사용하고 optimizer는 Adam, lr은 0.02 metrics는 마찬가지로 0에서 1 사이로 나오는 정확도(acc)를 사용할것이다.
20epochs는 20번 반복학습
'스파르타 내일배움캠프' 카테고리의 다른 글
value error 이진회귀함수중 onehotencoder를 사용하면 이런 문제가생긴다. (0) | 2022.05.16 |
---|---|
WIL4 (0) | 2022.05.15 |
TIL16 이진 논리회귀 (0) | 2022.05.14 |
TIL 15 머신러닝 기초 2주차 (0) | 2022.05.13 |
TIL 14 머신러닝 첫걸음 About kaggle?? (0) | 2022.05.12 |