본문 바로가기

AIJOSSI/AI 개념

[AI 개념] 처음이라 막막하지? 꼭 알아야하는 AI핵심용어 100개 정리! Part.2 (21~40)

[AI 개념] 처음이라 막막하지? 꼭 알아야하는 AI 핵심용어 100개 정리! Part.2 (21~40)

AI를 배우려면, 개념부터 확실히 잡아야 합니다! 이번 편에서는 머신러닝과 딥러닝의 핵심 개념, 그리고 데이터를 다루는 필수 용어들을 정리해볼게요.


안녕하세요, AI 알려주는 아조씨, 에이아이조씨 (AIJOSSI)입니다! 지난번 AI 핵심 용어 1~20개에 이어, 오늘은 머신러닝과 데이터 관련 개념 21~40번을 소개해드릴게요. 이제 막 AI를 공부하기 시작한 분들도 쉽게 이해할 수 있도록, 하나하나 자세히 설명해드릴게요!






21~30: 머신러닝과 딥러닝 기초

21. Autoencoder (오토인코더) [ˈɔː.toʊ.ɪnˌkoʊ.dɚ]

오토인코더는 **데이터의 특징을 추출하고 이를 재구성하는 신경망 구조**입니다. 입력 데이터를 압축(인코딩)한 후 다시 원래 형태로 복원(디코딩)하며, 이를 통해 데이터의 주요 특징을 학습할 수 있어요. 주로 **차원 축소, 이상 탐지, 이미지 노이즈 제거** 등의 작업에 사용됩니다.


📌 사용 예시:

  • 연구원들은 오토인코더를 이용해 의료 영상에서 중요한 특징을 추출했다.
  • 딥러닝 모델의 입력 데이터 크기를 줄이기 위해 오토인코더를 활용했다.

22. Batch Normalization (배치 정규화) [bætʃ ˌnɔːr.mə.lɪˈzeɪ.ʃən]

배치 정규화는 **신경망의 학습을 안정화하고 속도를 높이기 위해 입력 값을 정규화하는 기법**입니다. 이 방법은 학습 과정에서 발생하는 내부 공변량 변화(Internal Covariate Shift)를 줄여 딥러닝 모델의 학습 속도를 높이고, 과적합(overfitting)을 방지하는 데 도움을 줍니다.


📌 사용 예시:

  • 배치 정규화를 적용한 모델은 학습 속도가 크게 향상되었다.
  • 과적합을 줄이기 위해 배치 정규화를 활성화했다.

23. Dropout (드롭아웃) [ˈdrɑːp.aʊt]

드롭아웃은 **신경망의 일부 뉴런을 학습 과정에서 무작위로 제외하여 과적합을 방지하는 기법**입니다. 뉴런을 일부러 비활성화하면 모델이 특정 패턴에 과하게 의존하는 것을 막고, 더 일반화된 학습이 가능해집니다.


📌 사용 예시:

  • 드롭아웃을 적용한 모델은 테스트 데이터에서도 좋은 성능을 보였다.
  • 과적합이 발생하여 드롭아웃 확률을 0.5로 설정했다.

24. Backpropagation (역전파) [ˈbæk.proʊ.pəˌɡeɪ.ʃən]

역전파는 **신경망에서 오차를 최소화하기 위해 가중치를 조정하는 알고리즘**입니다. 출력층에서 발생한 오류가 입력층 방향으로 역으로 전달되며, 이를 통해 신경망이 최적의 가중치를 학습합니다. 딥러닝 모델이 점진적으로 성능을 향상할 수 있는 핵심 기술이에요.


📌 사용 예시:

  • 역전파 알고리즘을 통해 신경망이 빠르게 학습되었다.
  • 초기 학습 단계에서는 역전파가 느리지만, 점점 최적의 가중치를 찾아간다.

25. Activation Function (활성화 함수) [ˌæk.tɪˈveɪ.ʃən ˈfʌŋk.ʃən]

활성화 함수는 **신경망에서 뉴런의 출력을 결정하는 함수**입니다. 입력 값을 비선형 변환하여 신경망이 복잡한 패턴을 학습할 수 있도록 도와줍니다. 대표적인 활성화 함수에는 **ReLU(Rectified Linear Unit), Sigmoid, Tanh** 등이 있어요.


📌 사용 예시:

  • ReLU 활성화 함수를 사용하면 학습 속도가 빨라진다.
  • 출력층에서는 확률값을 얻기 위해 Softmax 활성화 함수를 적용한다.

26. Gradient Descent (경사 하강법) [ˈɡreɪ.di.ənt dɪˈsɛnt]

경사 하강법은 **손실 함수를 최소화하기 위해 모델의 가중치를 조정하는 최적화 알고리즘**입니다. 이 알고리즘은 모델이 학습하면서 오차(손실)를 줄여가는 과정에서 매우 중요한 역할을 합니다. 일반적으로 **확률적 경사 하강법(SGD), 미니배치 경사 하강법, 모멘텀 경사 하강법** 등이 활용됩니다.


📌 사용 예시:

  • 경사 하강법을 활용해 손실 값을 줄이며 최적의 모델을 찾았다.
  • 학습률이 너무 높으면 경사 하강법이 수렴하지 않을 수 있다.

27. Loss Function (손실 함수) [lɔːs ˈfʌŋk.ʃən]

손실 함수는 **AI 모델이 예측한 값과 실제 값 사이의 차이를 측정하는 함수**입니다. 손실 함수가 낮을수록 모델이 더 정확한 결과를 예측하고 있다는 뜻이죠. 대표적인 손실 함수에는 **평균 제곱 오차(MSE), 크로스 엔트로피(Cross-Entropy), 평균 절대 오차(MAE)** 등이 있습니다.


📌 사용 예시:

  • 모델의 손실 함수를 분석해 학습 성능을 평가했다.
  • 분류 문제에서는 크로스 엔트로피 손실 함수를 사용한다.

28. Overfitting (과적합) [ˈoʊ.vɚˌfɪt.ɪŋ]

과적합은 **AI 모델이 학습 데이터에는 잘 맞지만, 새로운 데이터에서는 성능이 떨어지는 현상**입니다. 모델이 학습 데이터의 패턴뿐만 아니라 노이즈까지 과하게 학습하는 것이 원인이죠. 이를 방지하기 위해 **드롭아웃(Dropout), 정규화(Regularization), 데이터 증강(Data Augmentation)** 등의 기법을 사용합니다.


📌 사용 예시:

  • 과적합을 방지하기 위해 드롭아웃 레이어를 추가했다.
  • 훈련 데이터에서는 정확도가 높지만, 테스트 데이터에서는 과적합이 발생했다.

29. Underfitting (과소적합) [ˈʌn.dɚˌfɪt.ɪŋ]

과소적합은 **AI 모델이 학습이 부족해, 학습 데이터에서도 성능이 낮은 상태**입니다. 모델이 데이터의 패턴을 제대로 학습하지 못했기 때문에 발생하죠. 모델이 너무 단순하거나, 학습량이 부족할 때 주로 나타납니다. 이를 해결하려면 **더 깊은 신경망을 사용하거나, 더 많은 데이터를 학습하는 방법**이 필요합니다.


📌 사용 예시:

  • 모델이 너무 단순해서 과소적합이 발생했다.
  • 훈련 데이터를 늘려서 과소적합 문제를 해결했다.

30. Hyperparameter (하이퍼파라미터) [ˈhaɪ.pɚˌpæ.rəˌmiː.t̬ɚ]

하이퍼파라미터는 **모델의 성능을 조정하기 위해 설정하는 변수**입니다. AI 모델이 학습하기 전부터 사용자가 직접 설정해야 하는 값으로, 대표적으로 **학습률(Learning Rate), 배치 크기(Batch Size), 드롭아웃 확률(Dropout Rate)** 등이 있습니다. 하이퍼파라미터를 적절하게 조정하면 모델 성능이 크게 향상될 수 있습니다.


📌 사용 예시:

  • 하이퍼파라미터 튜닝을 통해 모델의 성능을 최적화했다.
  • 학습률이 너무 높으면 모델이 불안정해질 수 있다.



31~40: 데이터 관련 용어



31. Big Data (빅데이터) [bɪɡ ˈdeɪ.t̬ə]

빅데이터는 **일반적인 데이터 처리 도구로 다룰 수 없을 만큼 방대한 데이터 집합**을 의미합니다. AI와 머신러닝의 발전으로 빅데이터를 분석하고 활용하는 기술이 중요해졌습니다. 빅데이터는 **3V(Volume: 데이터의 양, Velocity: 데이터 생성 속도, Variety: 데이터의 다양성)** 특성을 가집니다.


📌 사용 예시:

  • 빅데이터 분석을 통해 고객의 소비 패턴을 예측했다.
  • AI 모델은 빅데이터를 활용해 추천 시스템을 개선했다.

32. Data Preprocessing (데이터 전처리) [ˈdeɪ.t̬ə ˌpriːˈprɑː.sɛs.ɪŋ]

데이터 전처리는 **AI 모델 학습 전에 데이터를 정리하고 변환하는 과정**입니다. 전처리 과정에는 **결측값 처리, 중복 제거, 정규화, 이상치 탐지** 등이 포함됩니다. 올바르게 전처리된 데이터는 모델의 성능을 크게 향상시킬 수 있어요.


📌 사용 예시:

  • 모델의 성능을 높이기 위해 데이터를 전처리했다.
  • 결측값을 평균값으로 대체하는 데이터 전처리 기법을 사용했다.

33. Feature Engineering (특성 엔지니어링) [ˈfiː.tʃɚ ˌɛn.dʒɪˈnɪr.ɪŋ]

특성 엔지니어링은 **AI 모델이 학습할 수 있도록 데이터를 변형하고 가공하는 과정**입니다. 모델의 성능을 높이기 위해 데이터를 선택하고 조합하여 의미 있는 특성을 추출하는 것이 핵심이에요. 대표적인 기법으로는 **정규화(Normalization), 원-핫 인코딩(One-Hot Encoding), 로그 변환(Log Transformation)** 등이 있습니다.


📌 사용 예시:

  • 모델의 예측 성능을 높이기 위해 특성 엔지니어링을 수행했다.
  • 데이터의 분포를 정규화하는 것도 특성 엔지니어링의 한 방법이다.

34. Feature Extraction (특성 추출) [ˈfiː.tʃɚ ɪkˈstræk.ʃən]

특성 추출은 **주어진 데이터에서 중요한 특징만을 찾아내는 과정**입니다. 딥러닝에서는 CNN(합성곱 신경망)을 이용해 이미지의 특징을 추출하고, NLP에서는 워드 임베딩(Word Embedding) 기법을 사용하여 문장의 의미를 벡터로 변환합니다.


📌 사용 예시:

  • 이미지 분류 모델에서 CNN을 활용하여 자동으로 특성을 추출했다.
  • 텍스트 데이터에서 주요 키워드를 뽑아내는 특성 추출 기법을 적용했다.

35. Feature Selection (특성 선택) [ˈfiː.tʃɚ sɪˈlɛk.ʃən]

특성 선택은 **모델 성능을 향상시키기 위해 불필요한 특성을 제거하고 중요한 특성만 선택하는 과정**입니다. 불필요한 특성이 많으면 모델이 복잡해지고, 과적합 위험이 높아지기 때문에 특성 선택은 AI 모델의 최적화 과정에서 중요한 역할을 합니다.


📌 사용 예시:

  • 특성 선택 기법을 사용해 모델의 계산 비용을 줄였다.
  • 랜덤 포레스트를 활용하여 중요한 특성을 선택했다.

36. Label (라벨) [ˈleɪ.bəl]

라벨은 **지도 학습(Supervised Learning)에서 정답 데이터 역할을 하는 값**입니다. 예를 들어, 고양이와 개를 분류하는 AI 모델에서는 각 이미지에 "고양이" 또는 "개"라는 라벨이 붙어 있어야 합니다.


📌 사용 예시:

  • 훈련 데이터에 라벨을 추가해 모델이 학습할 수 있도록 했다.
  • 잘못된 라벨이 있으면 모델의 정확도가 낮아질 수 있다.

37. Training Data (훈련 데이터) [ˈtreɪ.nɪŋ ˈdeɪ.t̬ə]

훈련 데이터는 **AI 모델을 학습시키는 데이터셋**을 의미합니다. 이 데이터를 기반으로 모델이 패턴을 학습하고 예측 능력을 갖추게 됩니다. 하지만 훈련 데이터가 너무 적거나 편향되어 있으면, 모델 성능이 낮아질 수 있습니다.


📌 사용 예시:

  • 훈련 데이터의 양이 많을수록 모델의 성능이 향상된다.
  • 데이터 증강을 통해 훈련 데이터를 늘렸다.

38. Validation Data (검증 데이터) [ˈvæ.lɪˌdeɪ.ʃən ˈdeɪ.t̬ə]

검증 데이터는 **훈련 과정 중에 모델의 성능을 평가하는 데이터**입니다. 훈련 데이터로 학습한 모델이 과적합되지 않도록 검증하는 역할을 합니다. 보통 전체 데이터셋의 10~20% 정도를 검증 데이터로 활용합니다.


📌 사용 예시:

  • 검증 데이터를 활용하여 최적의 하이퍼파라미터를 찾았다.
  • 훈련 데이터와 검증 데이터의 분포가 비슷해야 한다.

39. Test Data (테스트 데이터) [tɛst ˈdeɪ.t̬ə]

테스트 데이터는 **최종적으로 모델의 성능을 평가하기 위해 사용되는 데이터**입니다. 훈련 및 검증 데이터와는 별도로 유지되며, 모델이 새로운 데이터를 얼마나 잘 예측하는지 확인하는 데 활용됩니다.


📌 사용 예시:

  • 테스트 데이터에서 높은 성능을 보이면 모델이 잘 학습된 것이다.
  • 검증 데이터와 테스트 데이터는 절대로 섞이면 안 된다.

40. Data Augmentation (데이터 증강) [ˈdeɪ.t̬ə ɔːɡ.menˈteɪ.ʃən]

데이터 증강은 **기존 데이터를 변형하여 학습 데이터를 증가시키는 기법**입니다. AI 모델의 일반화 성능을 높이고 과적합을 방지하기 위해 사용됩니다. 대표적인 기법으로는 **이미지 회전, 크기 조절, 밝기 변경, 텍스트 데이터 변형** 등이 있으며, 특히 딥러닝에서 데이터가 부족할 때 효과적으로 활용됩니다.


📌 사용 예시:

  • 딥러닝 모델의 성능을 높이기 위해 이미지 데이터에 데이터 증강을 적용했다.
  • 자연어 처리 모델을 학습할 때, 문장을 조금씩 변형하는 데이터 증강 기법을 사용했다.



자주 묻는 질문 (FAQ)

Q 과적합(Overfitting)과 과소적합(Underfitting)의 차이는 무엇인가요?

과적합은 모델이 학습 데이터에 지나치게 맞춰져 새로운 데이터에서 성능이 떨어지는 현상입니다. 반면, 과소적합은 학습이 부족하여 데이터의 패턴을 제대로 학습하지 못한 상태를 의미합니다.



Q 하이퍼파라미터(Hyperparameter)는 무엇이며, 어떻게 조정하나요?

하이퍼파라미터는 모델 학습 전에 사용자가 설정해야 하는 값입니다. 대표적으로 학습률(Learning Rate), 배치 크기(Batch Size), 드롭아웃 확률 등이 있습니다. 하이퍼파라미터 튜닝은 실험을 반복하며 최적의 값을 찾는 과정입니다.



Q 데이터 전처리(Data Preprocessing)가 중요한 이유는 무엇인가요?

데이터 전처리는 모델의 성능을 높이기 위해 데이터를 정리하는 과정입니다. 결측값 처리, 이상치 제거, 정규화 등의 과정을 거쳐야 모델이 안정적으로 학습할 수 있습니다.



Q 경사 하강법(Gradient Descent)과 손실 함수(Loss Function)의 관계는?

손실 함수는 모델이 예측한 값과 실제 값의 차이를 측정하는 함수입니다. 경사 하강법은 손실 함수의 값을 최소화하기 위해 모델의 가중치를 조정하는 최적화 알고리즘입니다.



맺음말

AI의 핵심 개념 100개 중 21~40번을 정리해 보았습니다! 머신러닝과 딥러닝, 데이터 관련 개념을 이해하는 것이 AI를 제대로 활용하는 첫걸음입니다. 다음 편에서는 더욱 심화된 개념과 실전에서 활용할 수 있는 AI 용어를 소개해 드릴 예정이니 기대해주세요. 궁금한 점이 있거나, 더 알고 싶은 개념이 있다면 댓글로 남겨주세요! 😊🚀

728x90