본문 바로가기

AIJOSSI/AI 개념

[AI 개념] 처음이라 막막하지? 꼭 알아야하는 AI핵심용어 100개 정리! Part.3 (41~60)

처음이라 막막하지? 꼭 알아야하는 AI핵심용어 100개 정리! Part.3 (41~60)

AI를 배우려면 데이터와 통계 개념을 확실히 이해해야 합니다! 이번 편에서는 AI 모델 학습과 데이터 분석에서 필수적인 개념들을 정리해볼게요.

 

안녕하세요, AI 알려주는 아조씨, 에이아이조씨 (AIJOSSI)입니다! 지난번 AI 핵심 용어 21~40개에 이어, 오늘은 데이터와 통계 개념 41~60번을 소개해드릴게요. 이번 편에서는 머신러닝 모델의 성능을 높이고 데이터 분석을 원활하게 하는 데 필요한 개념들을 깊이 있게 다룰 예정입니다.





41~50: 데이터 전처리 및 통계 개념

 

41. Outlier (이상치) [ˈaʊt.laɪ.ɚ]

이상치는 **일반적인 데이터 패턴에서 크게 벗어난 값**을 의미합니다.
예를 들어, 학생들의 평균 시험 점수가 70~90점인데 한 학생이 10점을 받았다면, 이는 이상치로 간주될 수 있습니다.
이상치는 머신러닝 모델의 성능을 저하시킬 수 있어 **이상치 제거, 변환, 조정 등의 방법으로 처리**하는 것이 중요합니다.

 

📌 사용 예시:

  • 데이터 분석을 하기 전에 이상치를 탐색하고 제거하는 과정이 필요하다.
  • 이상치를 처리하지 않으면 모델이 왜곡된 패턴을 학습할 수 있다.

 

42. Normalization (정규화) [ˌnɔːr.mə.ləˈzeɪ.ʃən]

정규화는 **데이터의 값들을 일정한 범위(예: 0~1)로 변환하는 기법**입니다.
머신러닝 모델은 서로 다른 크기의 데이터(feature)를 입력받을 때 성능이 저하될 수 있으므로, 정규화를 통해 모든 데이터를 동일한 범위로 조정합니다.
대표적인 정규화 방법으로는 **Min-Max Scaling**이 있으며, 이는 데이터의 최소값을 0, 최대값을 1로 변환하는 방식입니다.

 

📌 사용 예시:

  • 정규화를 적용하면 숫자 크기 차이가 모델의 학습에 미치는 영향을 줄일 수 있다.
  • 0~255 범위의 픽셀 값을 0~1로 변환하는 정규화 기법을 적용했다.

 

43. Standardization (표준화) [ˌstæn.dɚ.daɪˈzeɪ.ʃən]

표준화는 **데이터를 평균 0, 분산 1이 되도록 변환하는 기법**입니다.
정규화와 비슷하지만, 표준화는 데이터의 분포를 유지하면서 평균과 분산을 조정하는 것이 특징입니다.
대표적인 방법으로는 **Z-score 변환**이 있으며, 이는 데이터에서 평균을 빼고 표준편차로 나누는 방식입니다.

 

📌 사용 예시:

  • 표준화를 적용하면 데이터의 분포를 일정하게 만들 수 있다.
  • 딥러닝 모델에서 입력 데이터를 표준화하는 것이 성능 향상에 도움이 된다.

 

44. Imbalanced Data (불균형 데이터) [ɪmˈbæl.ənst ˈdeɪ.t̬ə]

불균형 데이터는 **클래스 간 데이터의 개수가 현저히 차이 나는 경우**를 의미합니다.
예를 들어, 스팸 메일을 분류하는 데이터에서 정상 메일이 95%, 스팸 메일이 5%라면 이는 불균형 데이터셋입니다.
이러한 데이터는 모델이 다수 클래스를 지나치게 학습하여 소수 클래스를 무시하는 문제를 일으킬 수 있습니다.
이를 해결하기 위해 **오버샘플링(Over-sampling), 언더샘플링(Under-sampling), 가중치 조정(Class Weighting)** 등의 방법이 사용됩니다.

 

📌 사용 예시:

  • 불균형 데이터를 해결하기 위해 소수 클래스를 오버샘플링했다.
  • 클래스 가중치를 조정하여 모델이 균형 잡힌 예측을 할 수 있도록 설정했다.

 

45. One-Hot Encoding (원-핫 인코딩) [wʌn hɑːt ɪnˈkoʊ.dɪŋ]

원-핫 인코딩은 **범주형 데이터를 숫자로 변환하는 방법**입니다.
예를 들어, "사과, 바나나, 포도"라는 세 개의 과일이 있다면, 이를 숫자로 변환하기 위해 각 항목을 고유한 벡터로 나타내는 방식입니다.
- 사과 → [1, 0, 0] - 바나나 → [0, 1, 0] - 포도 → [0, 0, 1] 이처럼 원-핫 인코딩은 데이터를 수치화하여 머신러닝 모델이 이해할 수 있도록 돕습니다.
다만, 데이터의 범주가 많아지면 벡터 크기가 커지는 **차원의 저주(Curse of Dimensionality)** 문제가 발생할 수 있습니다.

 

📌 사용 예시:

  • 카테고리형 데이터를 원-핫 인코딩으로 변환하여 모델 학습에 사용했다.
  • 범주가 너무 많아 차원의 저주 문제가 발생하여 다른 인코딩 기법을 고려했다.

 

46. Dimensionality Reduction (차원 축소) [dɪˌmɛn.ʃəˈnæl.ɪ.ti rɪˈdʌk.ʃən]

차원 축소는 **데이터의 특성(Feature) 개수를 줄여 계산 효율을 높이는 기법**입니다.
고차원 데이터는 분석이 어렵고 연산 비용이 높아지는 문제를 일으킬 수 있습니다.
이를 해결하기 위해 **주성분 분석(PCA), t-SNE, LDA** 등의 방법을 사용하여 데이터를 더 적은 차원으로 변환합니다.
차원 축소는 데이터의 핵심 정보를 유지하면서도 불필요한 변수를 제거하는 데 유용합니다.

 

📌 사용 예시:

  • 고차원 데이터를 주성분 분석(PCA)으로 차원 축소하여 모델 성능을 개선했다.
  • 차원이 너무 높으면 연산 비용이 증가하므로, t-SNE를 이용해 시각화했다.

 

47. PCA (Principal Component Analysis, 주성분 분석) [ˈprɪn.sɪ.pəl kəmˈpoʊ.nənt əˈnæl.ə.sɪs]

PCA(주성분 분석)는 **데이터의 중요한 특징을 보존하면서 차원을 줄이는 기법**입니다.
데이터의 분산이 가장 큰 방향을 따라 새로운 축을 정의하여, 원래 데이터보다 적은 차원으로 변환하지만 주요 정보는 유지합니다.
PCA는 데이터 압축, 노이즈 제거, 시각화 등 다양한 머신러닝 및 데이터 분석에서 활용됩니다.

 

📌 사용 예시:

  • 고차원 데이터를 PCA를 사용해 2차원으로 변환하여 시각화했다.
  • 모델의 연산 속도를 높이기 위해 주성분 분석을 적용했다.

 

48. EDA (Exploratory Data Analysis, 탐색적 데이터 분석) [ɪkˈsplɔː.rə.tɔːr.i ˈdeɪ.t̬ə əˈnæl.ə.sɪs]

EDA는 **데이터를 깊이 있게 탐색하여 특성을 이해하고 패턴을 분석하는 과정**입니다.
데이터의 분포, 이상치, 상관관계 등을 파악하기 위해 **히스토그램, 상자 그림, 산점도** 등의 시각화 기법이 활용됩니다.
EDA를 수행하면 데이터의 품질을 개선하고, 머신러닝 모델을 적절히 설계하는 데 도움이 됩니다.

 

📌 사용 예시:

  • EDA를 통해 데이터의 이상치를 탐색하고 정제 작업을 수행했다.
  • 변수 간 상관관계를 분석하여 모델에서 사용할 주요 특성을 선정했다.

 

49. Bias (편향) [ˈbaɪ.əs]

편향은 **AI 모델이 학습 데이터의 특정 패턴에 지나치게 치우쳐 잘못된 예측을 하는 현상**입니다.
예를 들어, 얼굴 인식 모델이 특정 인종의 얼굴을 더 잘 인식하고 다른 인종은 인식률이 낮다면, 이는 편향된 데이터로 인해 발생한 문제일 수 있습니다.
편향을 줄이기 위해서는 다양한 데이터를 포함하는 것이 중요하며, 데이터 증강(Data Augmentation)이나 재샘플링 기법을 활용할 수도 있습니다.

 

📌 사용 예시:

  • 모델의 편향을 줄이기 위해 다양한 데이터셋을 추가했다.
  • AI 윤리 문제를 고려하여 편향된 학습 데이터를 수정해야 한다.

 

50. Variance (분산) [ˈver.i.əns]

분산은 **모델이 입력 데이터에 따라 얼마나 변동하는지를 나타내는 지표**입니다.
분산이 높은 모델은 훈련 데이터에는 잘 맞지만, 새로운 데이터에는 성능이 낮아질 수 있습니다.
이는 모델이 데이터를 너무 세밀하게 학습한 **과적합(Overfitting)** 때문일 가능성이 높습니다.
이를 해결하기 위해 **드롭아웃(Dropout), 정규화(Normalization), 교차 검증(Cross-Validation)** 기법이 활용됩니다.

 

📌 사용 예시:

  • 모델의 분산이 너무 높아 테스트 데이터에서 성능이 불안정했다.
  • 드롭아웃을 적용하여 분산을 줄이고 모델의 일반화 성능을 높였다.

 

51~60: 머신러닝 알고리즘 개념

 

51. Decision Tree (의사결정나무) [dɪˈsɪʒ.ən triː]

의사결정나무는 **데이터를 조건에 따라 여러 개의 분기로 나누어 예측을 수행하는 알고리즘**입니다.
마치 "예/아니오" 질문을 반복하면서 결정을 내려가는 방식과 비슷합니다.
간단하고 해석이 쉬운 장점이 있지만, 분기가 많아지면 과적합이 발생할 수 있습니다.
이를 해결하기 위해 **트리의 깊이를 제한하거나 가지치기(Pruning) 기법을 적용**합니다.

 

📌 사용 예시:

  • 의사결정나무를 사용해 고객이 상품을 구매할 확률을 예측했다.
  • 모델의 과적합을 방지하기 위해 가지치기를 적용했다.



52. Random Forest (랜덤 포레스트) [ˈræn.dəm ˈfɔːr.ɪst]

랜덤 포레스트는 **여러 개의 의사결정나무(Decision Tree)를 결합하여 예측 성능을 향상시키는 앙상블 기법**입니다.
각각의 트리는 서로 다른 데이터 샘플과 특성을 사용하여 독립적으로 학습하며, 최종 결과는 다수결 투표(분류) 또는 평균(회귀)을 통해 결정됩니다.
랜덤 포레스트는 **과적합(Overfitting) 위험이 적고 성능이 안정적인 장점**이 있지만, 트리 개수가 많아질수록 연산 비용이 증가하는 단점도 있습니다.

 

📌 사용 예시:

  • 랜덤 포레스트를 사용하여 고객 이탈 예측 모델을 개발했다.
  • 단일 의사결정나무보다 랜덤 포레스트가 일반화 성능이 우수했다.



53. XGBoost (eXtreme Gradient Boosting) [ˈɛks.dʒiː.buːst]

XGBoost는 **머신러닝 대회에서 자주 사용되는 강력한 부스팅(Boosting) 알고리즘**입니다.
부스팅 기법은 여러 개의 약한 모델(Weak Learner)을 결합하여 강력한 모델을 만드는 방법입니다.
XGBoost는 **메모리 효율성이 높고, 과적합을 방지하는 규제 기능이 내장되어 있으며, 병렬 연산을 지원하여 빠른 학습 속도를 제공**합니다.

 

📌 사용 예시:

  • 캐글(Kaggle) 대회에서 XGBoost를 활용해 높은 성능을 기록했다.
  • XGBoost는 기존 랜덤 포레스트보다 학습 속도가 빠르고 성능이 뛰어났다.



54. KNN (K-Nearest Neighbors, K-최근접 이웃) [keɪ ˈnɪə.rɪst ˈneɪ.bɚz]

KNN은 **새로운 데이터가 주어졌을 때, 가장 가까운 K개의 데이터를 기준으로 클래스를 예측하는 알고리즘**입니다.
예를 들어, 특정 상품을 좋아할 가능성이 높은 고객을 예측할 때, 비슷한 고객 K명의 구매 이력을 참고하여 결정을 내립니다.
KNN은 **단순하면서도 직관적인 모델이지만, 데이터가 많아질수록 연산량이 증가하는 단점**이 있습니다.

 

📌 사용 예시:

  • KNN을 사용하여 신용카드 거래의 이상 탐지를 수행했다.
  • 비슷한 영화 취향을 가진 사용자를 기반으로 추천 시스템을 구축했다.



55. SVM (Support Vector Machine, 서포트 벡터 머신) [səˈpɔːrt ˈvɛk.tɚ məˈʃiːn]

SVM은 **두 클래스 간 가장 최적의 결정 경계를 찾는 지도 학습 알고리즘**입니다.
데이터를 선형 또는 비선형적으로 분리하며, 분류(Classification)와 회귀(Regression) 문제에서 모두 사용할 수 있습니다.
SVM은 **고차원 데이터에서도 강력한 성능을 발휘하지만, 학습 속도가 느릴 수 있습니다**.

 

📌 사용 예시:

  • SVM을 사용하여 스팸 메일을 자동으로 분류했다.
  • 이미지 인식 문제에서 SVM을 활용하여 손글씨 숫자를 분류했다.

 

56. Logistic Regression (로지스틱 회귀) [loʊˈdʒɪs.tɪk rɪˈɡrɛʃ.ən]

로지스틱 회귀는 **데이터를 0 또는 1과 같은 이진(이항) 분류하는 확률 기반 모델**입니다.
출력값이 항상 0과 1 사이의 확률 값이 되도록 **시그모이드(Sigmoid) 함수**를 사용합니다.
예를 들어, 고객이 특정 상품을 구매할 확률을 예측하는 데 사용될 수 있습니다.

 

📌 사용 예시:

  • 로지스틱 회귀를 사용하여 질병의 발병 여부를 예측했다.
  • 고객의 이탈 가능성을 예측하는 데 로지스틱 회귀 모델을 적용했다.



57. Linear Regression (선형 회귀) [ˈlɪn.i.ɚ rɪˈɡrɛʃ.ən]

선형 회귀는 **입력 변수(X)와 출력 변수(Y) 사이의 관계를 선형 방정식으로 표현하는 기법**입니다.
예를 들어, 광고비(X)와 매출(Y)의 관계를 예측할 때, "광고비가 증가하면 매출도 증가하는가?"를 분석할 수 있습니다.
수식으로는 다음과 같이 표현됩니다:
Y = aX + b (a: 기울기, b: 절편)
단순 선형 회귀(변수가 하나)와 다중 선형 회귀(변수가 여러 개)로 구분되며, 주로 예측 모델을 만들거나 데이터 간의 상관관계를 분석하는 데 사용됩니다.

 

📌 사용 예시:

  • 선형 회귀를 이용해 아파트 가격을 예측하는 모델을 개발했다.
  • 학생의 공부 시간과 시험 점수의 관계를 선형 회귀로 분석했다.



58. Bayesian Network (베이지안 네트워크) [ˈbeɪ.ʒən ˈnɛt.wɝːk]

베이지안 네트워크는 **확률과 조건부 독립성을 기반으로 한 그래프 모델**입니다.
각 노드(Node)는 변수(예: 날씨, 교통량 등)를 나타내고, 엣지(Edge)는 변수 간의 관계(예: 비가 오면 교통 체증이 심해진다)를 의미합니다.
이 모델은 **결정론적 방식이 아니라 확률적 추론을 통해 예측하는 데 강점**이 있습니다.
의료 진단, 금융 위험 분석, 추천 시스템 등에서 많이 사용됩니다.

 

📌 사용 예시:

  • 베이지안 네트워크를 이용해 질병 진단 확률을 계산했다.
  • 고객의 구매 패턴을 분석하여 추천 시스템을 최적화했다.



59. Markov Chain (마르코프 체인) [ˈmɑːr.kɔːf tʃeɪn]

마르코프 체인은 **현재 상태에만 의존하여 다음 상태가 결정되는 확률 모델**입니다.
예를 들어, 날씨 예측에서 "오늘 비가 올 확률이 70%라면, 내일도 비가 올 확률은 50%"와 같은 방식으로 예측합니다.
이 모델은 **자연어 처리(NLP), 게임 AI, 금융 모델링 등에서 널리 활용**됩니다.
특히 **구글의 PageRank 알고리즘(웹페이지 랭킹 계산)에 마르코프 체인이 적용**되었습니다.

 

📌 사용 예시:

  • 마르코프 체인을 사용하여 문장의 다음 단어를 예측하는 모델을 만들었다.
  • 웹사이트 방문자의 행동 패턴을 분석하는 데 활용되었다.



60. A/B Testing (A/B 테스트) [eɪ biː ˈtɛst.ɪŋ]

A/B 테스트는 **두 개의 실험군을 비교하여 최적의 결과를 찾는 실험 방법**입니다.
예를 들어, 웹사이트의 두 가지 디자인(A와 B)을 방문자 그룹에 무작위로 노출하여 어떤 디자인이 더 높은 클릭률을 유도하는지 비교할 수 있습니다.
A/B 테스트는 **광고, 마케팅, UI/UX 디자인, 추천 시스템 등에서 자주 사용**됩니다.

 

📌 사용 예시:

  • 홈페이지의 두 가지 디자인을 대상으로 A/B 테스트를 진행했다.
  • 광고 문구의 효과를 분석하기 위해 A/B 테스트를 실시했다.




자주 묻는 질문 (FAQ)

 

Q 정규화(Normalization)와 표준화(Standardization)의 차이는 무엇인가요?

정규화는 데이터를 0과 1 사이의 값으로 변환하는 방법이며, 주로 Min-Max Scaling을 사용합니다.
반면 표준화는 데이터의 평균을 0, 표준편차를 1로 맞추는 방식으로 Z-score 변환이 대표적인 방법입니다.

 

Q 데이터가 불균형하면 어떤 문제가 발생하나요?

불균형 데이터는 AI 모델이 다수 클래스를 지나치게 학습하여 소수 클래스를 무시하는 경향이 생깁니다.
이 문제를 해결하려면 오버샘플링, 언더샘플링, 또는 가중치 조정 같은 기법을 사용할 수 있습니다.

 

Q 편향(Bias)과 분산(Variance)의 차이는 무엇인가요?

편향은 모델이 학습 데이터에 대해 너무 단순하게 학습하는 경향으로, 일반적으로 학습이 부족한 경우 발생합니다.
반면 분산은 모델이 훈련 데이터에 과도하게 맞춰져 새로운 데이터에서는 성능이 낮아지는 현상입니다.

 

Q 선형 회귀(Linear Regression)와 로지스틱 회귀(Logistic Regression)의 차이는 무엇인가요?

선형 회귀는 연속적인 숫자 값을 예측하는 데 사용되며, 출력 값이 0부터 무한대까지 나올 수 있습니다.
반면 로지스틱 회귀는 이진 분류(예/아니오) 문제에서 사용되며, 출력 값이 0과 1 사이의 확률 값으로 변환됩니다.

 

Q XGBoost와 랜덤 포레스트(Random Forest)의 차이는 무엇인가요?

랜덤 포레스트는 여러 개의 의사결정나무를 조합하는 방식이며, 각 트리가 독립적으로 예측을 수행합니다.
반면 XGBoost는 이전 모델의 오차를 보완하는 방식으로 트리를 점진적으로 학습하는 부스팅(Boosting) 기법을 사용합니다.

 

Q A/B 테스트를 진행할 때 주의해야 할 점은 무엇인가요?

A/B 테스트를 할 때는 충분한 샘플 크기와 실험 기간을 설정해야 합니다.
또한 변수를 하나씩 변경하여 실험해야 신뢰할 수 있는 결과를 얻을 수 있습니다.



맺음말

AI 핵심 용어 100개 중 41~60번까지 정리 완료! 이번 편에서는 머신러닝 모델과 통계 기법을 다뤘으며, 실무에서 자주 사용되는 개념을 심층적으로 설명했습니다. 다음 편에서는 더욱 고급 개념과 AI 실전 활용 사례를 다룰 예정이니 기대해주세요! 궁금한 점이 있거나, 더 알고 싶은 개념이 있다면 댓글로 남겨주세요! 😊🚀

728x90