Artificial Intelligence

데이터 사이언스

gozer0 2024. 7. 5. 20:07

인공지능, 머신러닝, 딥러닝

이 세가지는 각각 포함되어지는 관계이다.

 

인공지능은 다양한 산업 분야에서 중요한 기술로 자리 잡고 있으며,

그 중 머신러닝은 인공지능을 구현하는 주요 기법 중에 하나이다.

요즘에는 특히 딥러닝(Deep Learning)이라고 해서 머신러닝의 한 분야가 매우 활발히 사용되고 있다.

 

 

 

산업 종류

먼저 IT 기업이 있다. 대표적으로 Google, Meta 가 있다.

Retail 분야에는 Amazon, Coupang 등이 있는데, 제품을 판매하는 기업인 만큼 제품을 추천해주는 추천시스템,

고객을 응대하기 위한 챗봇(고객센터), 수요 예측을 위한 시스템 등에 인공지능이 들어간다.

 

Manufacturing 분야에는 제조업, 공장 생산 라인을 유지하도록(지속적이고 안정적 + 언제 망가지는지 등의 예측, 정상적으로 작동할건지), 생산 효율성을 높이고, 제품 품질을 관리한다.

 

Healthcare는 요즘 부상하고 있으며, MRI, CT 사진을 보고 질병을 진단, 실시간으로 환자 정보를 보고 질병을 예측한다.

→ 우리나라는 법적인 문제 제한으로 많지 않지만 미국에서는 앱 기반으로 피부 질환을 예측하도록 하는 기술이 있다.

 

Finance 분야에서는 이상 거래 감지라고 해서 이전부터 존제하던 기술이라 이제는 고도화가 되어 있다. 

대출 과정 중의 심사(대출이 가능한지, 이자는 몇프로 등) 또한 이러한 과정들을 자동화 하는 데에 힘을 쓰고 있다.

 

Automobile 분야는 자율 주행이 대표적이다. 또한 Manufacturing 분야와 같이 기기가 고장날 것을 예측할 수 있는 기술을 도입하여 사용자들에게 안전하게 운전할 수 있는 환경을 제공한다.

 

 

ML Workflow

 

여기서 가장 중요한 건 Problem formulation 인데

어떤 문제를 해결할 것인지를 고민해 보는 것.

 

그 다음은 과거의 경험과 기록을 바탕으로 예측하는 것이 머신러닝이기에 데이터를 수집하기.

 

그리고 모델을 트레이닝하고 튜닝을 하고 

 

실제로 문제에 적용되어 서비스화한다. 

 

이 과정들을 반복하여 데이터를 축적하고 반복 학습시키며, 모니터링한다.

 

 

Roles

  1. Domain experts: 비즈니스 인사이트가 있다. 문제 잘 찾는 사람
  2. Data scientists : 데이터 마이닝, 모델 트레이닝, 배포까지
  3. ML experts : 모델 관점에서 더 전문적으로 접근
  4. SDE : 소프트웨어개발엔지니어 , 데이터 사이언티스트를 프로그래밍 관점에서 서포터

 

데이터를 가지고 어떻게 ?

 

데이터가 충분한가? → 없다면? 어떻게 어디서 수집할것인가? → 찾거나 기존 데이터를 조합한다

그렇다면 어떻게 데이터를 수집하는가?

  1. 식별 가능한 존재하는 데이터 셋이 있는가?
  2. 기존 데이터를 최대한 가져와서 검증해보는 과정 필요하다.
  3. 머신러닝 방법론 검증한다.

 

다양한 데이터 셋

  • MNIST : 숫자를 인식하는 데이터셋, 가장 간단하다
  • lmageNet : 이미지를 분류
  • AudioSet : 오디오 관련
  • LibriSpeech : 음성 관련
  • Kinetics : 유튜브 영상 기반 비디오
  • KITTI : 자율주행 데이터 셋
  • Amazon Review : 실제 쇼핑에서 있는 리뷰
  • SQuAD : NLP, 챗GPT가 잘 발달되어 있어 잘 안씀.

 

Academic datasets, Competition dataset, Raw Data

데이터셋은 이렇게 나뉘어지는데, 

연구용은? 클린하다. 사용하기 좋게 가공이 잘 되어 있다. 그렇지만 이 가공이라는 것이 손이 많이 간다.

그래서 단점은 비싸다. 그리고 단순하다.

 

Competition dataset은 연구용보다는 확실히 현실적이다. 사실, 연구용이랑 Competition 둘다 가정이라는 걸 바탕으로 만들어진 데이터셋이라 우리가 원하는 주제와 다를 수도 있다는 단점이 있다.

 

날것의 데이터는. 활용범위가 아주 넓어 다양하게 쓰일 수 있다. 하지만 가공되어 있지 않아서 우리가 직접 해야된다는 단점이 있고 저렴하다. 현업에서는 이 데이터를 다루는 것이 대부분이다.

 

 

내가 쓰고 싶은 데이터가 없다면?

Generate Synthetic Data

생성형 AI라는 것이 있다. 데이터를 생성해주는 AI이다.

chat GPT도 사실 텍스트 형태로 다양한 것을 만들어주는 생성형 AI이다.

 

data augmentations 라고 해서 원본 이미지를 가지고 여러개의 다양한 이미지 생성해주는 것도 있다.

 

 

'Artificial Intelligence' 카테고리의 다른 글

뉴런 네트워크  (0) 2024.07.06
딥 러닝  (0) 2024.07.06
데이터 라벨링  (0) 2024.07.05