Semi-Supervised Learning (SSL)
Supervised Learning 라는게 정답이 있는 것이라는 건데
Semi가 붙었다? 정답이 없다는 것.
그러니까 일부에는 레이블이 있는데 나머지 대부분은 레이블이 없다는 것이다.
Supervised 라는 게 정답이 있어야 학습이 가능하다.
그렇다면 SSL은 어떻게 학습이 되는것일까?
정답이 없는 데이터는 어떻게 학습을 시킬 수 있는 것인가?
- 비슷한 데이터들은 같은 정답을 가질 것이다.
- 같은 군집 내의 데이터들은 정답도 같을 것이다. same label -> 클러스터링 : 레이블 없이 데이터 가지고 군집화 한것
- manifold assumption

SSL은 Self training 방법론을 사용하는데,
일부는 레이블을 가지고 있다면 이들은 Supervised Learning이다.
이 데이터들로 그들만의 모델이 생긴다.
그런 다음, 이를 가지고 정답이 없는 것들에 대해 예측을 한다.
이에 따른 예측값들을 정답처럼 활용한다. 이 값들을 가짜 레이블드 값이라고 부른다면
- 정답 데이터 학습시킨다. (Supervised Learning)
- 정답이 없는 값들을 넣어서 정답을 만든다. (틀릴수도 있다. 정답이 믿을만한지. 판단한다)
- 모델에 적용한다.
그런데, 이런 레이블드 되어 있는 데이터 조차도 없다면?
그럼 돈주고 사느냐 이말이다.
레이블 만들어주는 플랫폼이 있다.
외주 레이블링이라고 해서 아마존 같은 회사에서 외주로 데이터 레이블링 서비스를 제공하는 업체들이 있다.
이게 비싸지만, 빠르고 정확하다.
자체 레이블링도 있는데 내부 직원이나 자원으로 데이터를 레이블링할 수 있다. 초기 비용이 들어서 장기적으로 한다 그러면 추천한다.
'Artificial Intelligence' 카테고리의 다른 글
| 뉴런 네트워크 (0) | 2024.07.06 |
|---|---|
| 딥 러닝 (0) | 2024.07.06 |
| 데이터 사이언스 (0) | 2024.07.05 |