카테고리 없음

Google ML - 2) ML 문제로 표현하기 (주요 ML 용어)

Huin999 2021. 4. 19. 10:21

(  지도 supervised  ) 머신러닝이란 무엇인가요?

 

간단히 말하면 다음과 같습니다.

 


ML시스템은 입력을 결합하여

이전에 본 적이 없는 데이터적절히 예측하는 방법을 학습합니다.


기본적인 머신러닝 용어를 살펴보겠습니다.

 


1. 라벨 ( label )

라벨은 예측하는 항목입니다(단순 선형 회귀의 y 변수).

밀의 향후 가격, 사진에 표시되는 동물의 종류, 오디오 클립의 의미 등 무엇이든지 라벨이 될 수 있습니다.

 


2. 특성 ( feature )

특성은 입력 변수입니다(단순 선형 회귀의 x 변수). 

간단한 머신러닝 프로젝트에서는 특성 하나를 사용하지만

복잡한 머신러닝 프로젝트에서는 다음과 같이 수백만 개의 특성을 사용할 수 있습니다.

 

스팸 감지 예에는 다음과 같은 특성이 포함될 수 있습니다.

  • 이메일 텍스트의 단어
  • 보내는 사람의 주소
  • 이메일이 전송된 시간
  • '이상한 속임수 하나'라는 구문이 포함된 이메일

3. 예 ( example )

는 데이터(x)의 특정 인스턴스입니다. 

x는 벡터라는 것을 나타내기 위해 굵게 표시합니다.

 

예는 두 카테고리로 구분됩니다.

  • 라벨이 있는 예
  • 라벨이 없는 예

라벨이 있는 예에는 특성과 라벨이 모두 포함됩니다. 

즉 다음과 같습니다.

 

  labeled examples: {features, label}: (x, y)

 

모델을 학습시키려면 라벨이 있는 예를 사용하세요.

스팸 감지 예에서 라벨이 있는 예는 사용자가 명시적으로 '스팸' 또는 '스팸 아님'으로 표시한 개별 이메일입니다.

예를 들어 다음 표에는 캘리포니아 주택 가격 정보가 포함된 데이터 세트 에서 추출한 라벨이 있는 예 5개가 표시됩니다.


라벨이 없는 예에는 특성은 포함되지만 라벨은 포함되지 않습니다. 즉 다음과 같습니다.

 

  unlabeled examples: {features, ?}: (x, ?)

다음은 medianHouseValue를 포함하지 않는 동일한 주택 데이터세트의 라벨이 없는 3가지 예입니다.

라벨이 있는 예로 모델을 학습시킨 다음 해당 모델을 사용하여 라벨이 없는 예의 라벨을 예측합니다.

스팸 감지 예에서 라벨이 없는 예는

사람이 라벨을 지정하지 않은 새 이메일입니다.


4. 모델 ( Model )

모델은 특성과 라벨의 관계를 정의합니다.

예를 들어, 스팸 감지 모델에서 특정 특성'스팸'과 긴밀하게 연결할 수 있습니다.

 

 

모델 수명의 두 단계를 골라 살펴보겠습니다.

  • 학습은 모델을 만들거나 배우는 것을 의미합니다. 즉 라벨이 있는 예를 모델에 보여 주고, 모델이 특성과 라벨의 관계를 점차적으로 학습하도록 합니다.
  • 추론은 학습된 모델을 라벨이 없는 예에 적용하는 것을 의미합니다. 즉 학습된 모델을 사용하여 유용한 예측(y')을 해냅니다. 예를 들어, 추론하는 동안 라벨이 없는 새로운 예로 medianHouseValue를 예측할 수 있습니다.

5. 회귀( Regression ) 와 분류 ( Classification )

 


회귀 모델은 연속적인 값을 예측합니다.

 

예를 들어 회귀 모델은 다음과 같은 질문에 대한 답을 예측합니다.

  • 캘리포니아의 주택 가격이 얼마인가요?
  • 사용자가 이 광고를 클릭할 확률이 얼마인가요?

분류 모델은 불연속적인 값을 예측합니다.

 

예를 들어 분류 모델은 다음과 같은 질문에 대한 답을 예측합니다.

  • 주어진 이메일 메시지가 스팸인가요, 스팸이 아닌가요?
  • 이 이미지가 강아지, 고양이 또는 햄스터의 이미지인가요?