IT/IT·인터넷2019. 3. 8. 07:00

처음,배우는,머신러닝,요약정리2


처음 배우는 머신러닝
국내도서
저자 : 김승연,정용주
출판 : 한빛미디어 2017.10.01
상세보기




교차검증의 개념 : 교차검증은 학습-평가 데이터 나누기를 한 번만 하는 것이 아니라 여러번 반복해서 좀더 정확하게 일반화 에러를 평가하는 방법입니다.

K겹 교차검증의 동작 네 과정
1. 데이터셋을 K개로 나눕니다.
2. 그중 첫번째 세트를 제외하고 나머지에 대해 모델을 학습합니다. 그리고 첫 번째 시트를 이용해서 평가를 수 행합니다.
3. 과정2를 마지막 세트까지 진행합니다.
4. 각 세트에 대해 구했던 평가 결과의 평균을 구합니다.

분할적 군집화와 집괴적 군집화의 개념
분할적 군집화 : 각 계층의 클러스터들을 둘로 쪼개어 하위 계층으로 진행하고, 상향식인 집괴적 군집화는 각 계층의클러스터들 중에서 가장 가까운 두 개를 하나로 합쳐 상위 계층의 클러스터를 만들어 갑니다.

집괴적 군집화 : 클러스터 하나에 데이터 하나가 들어 있습니다. 이 클러스터를 비교해 가면서 상위 계층으로 올라갑니다.

집괴적 군집화의 순서 세 과정
1. 하나의 데이터를 하나의 클러스터로 지정합니다.
2. 과정1의 클러스터들에 대해 가장 유사도가 높은 클러스터 둘을 하나로 합칩니다.
3. 과정2에서 생성된 클러스터들에 대해 다시 같은 과정을 반복합니다.

현재 자사에서 교차검증을 적용 시 발생할수 있는 문제점 : 자사에서는 간단하게 일반화 에러를 평가하는것을 선호하기 때문에 교차검증을 적용시 여러번 학습하고 평가하는 과정을 거치고 계산량이
많아진다는 문제점이 있다.

자사에 군집화 적용시 발생 할수 있는 문제점 : 자사에서는 데이터의 크기가 커서 군집화를 적용하게 어려운 문제점이 있다.



머신러닝은 ‘학습 데이터’로부터 ‘모델’을 찾아내는 귀납적 기법으로 영상 인식과 음성 인식 및 자연어 처리 등의 문제를 푸는 데 효과적입니다. 머신러닝의 성패는 일반화를 얼마나 잘 달성하느냐에 달려 있습니다. 학습 데이터와 실제 입력 데이터의 차이로 인한 성능 저하를 막기 위해서는 편향되지 않은 학습 데이터를 충분히 확보해야 합니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
Posted by 프리스케이터