머신러닝이란 | 중고등학생을 위한 기계학습 입문 가이드

머신러닝과 전통 프로그래밍의 차이

전통 프로그래밍에서는 개발자가 모든 조건과 규칙을 코드로 적어야 합니다. 반면 머신러닝에서는 데이터와 정답을 보여 주면 컴퓨터가 스스로 규칙을 만들어 냅니다. 두 방식이 어떻게 다른지 간단하게 비교해 보겠습니다.

항목	전통 프로그래밍 (규칙 기반)	머신러닝 (데이터 기반)
입력	데이터 + 규칙 (개발자가 직접 작성)	데이터 + 정답(레이블)
출력	결과	결과 + 규칙(모델)
강점	규칙이 명확하고 설명이 쉬운 문제	규칙이 복잡하거나 데이터가 많은 문제
적합한 예	계산기, 세금 계산 프로그램	이미지 인식, 스팸 필터, 번역

규칙을 사람이 다 쓰기 어렵거나 데이터가 충분히 있는 상황이라면 머신러닝이 훨씬 효율적입니다. 반대로 규칙이 단순하고 설명 가능해야 하는 경우에는 전통 방식이 더 적합합니다.

머신러닝의 3가지 유형

머신러닝은 정답 데이터를 어떻게 활용하느냐에 따라 크게 세 가지로 나뉩니다. 처음 배울 때 가장 많이 마주치는 것은 지도학습입니다.

유형 1

지도학습

Supervised Learning

입력과 정답 쌍을 주고 학습시킵니다. 대표 과제는 분류(classification)와 회귀(regression)입니다.

실제 사용 예

이메일 스팸 분류, 집값 예측, 질환 진단, 손글씨 인식

유형 2

비지도학습

Unsupervised Learning

정답 없이 데이터 안의 패턴이나 군집을 스스로 찾습니다. 대표 과제는 군집화(clustering)와 차원 축소입니다.

실제 사용 예

고객 세분화, 이상 거래 탐지, 추천 시스템 전처리

유형 3

강화학습

Reinforcement Learning

환경에서 행동을 해 보고 보상을 받으며 점점 나은 전략을 찾습니다. 시행착오로 스스로 학습합니다.

실제 사용 예

바둑·게임 AI, 로봇 제어, 자율주행 의사결정

KOAI·USAAIO에서 머신러닝은 어떻게 출제되나

AI 올림피아드를 준비하는 학생이라면 이 페이지에서 다루는 개념이 곧 시험 단위와 일치한다는 것을 알아야 합니다. 각 대회별 출제 범위를 정리했습니다.

KOAI (한국인공지능올림피아드)

▸고등부 2차 필기: 객관식 80문항 + 단답 10문항, 약 6시간 진행. 머신러닝·딥러닝이 핵심 출제 범위이며, 지도학습·비지도학습의 원리와 알고리즘이 직접 출제됩니다.
▸중등부 필기: 머신러닝 개념과 Python 구현 기초가 포함되며, 고등부보다 이론 비중이 높습니다.
▸1차 서류: AI 포트폴리오 제출이 포함되므로, 직접 만든 머신러닝 프로젝트 경험이 유리합니다.

USAAIO (미국·캐나다 AI 올림피아드)

▸USAAIO 공개 실러버스의 Machine Learning 영역은 지도학습(supervised)·비지도학습(unsupervised)을 명시적으로 포함합니다.
▸그 앞단으로 수학 기초(선형대수·확률통계)와 Python·scikit-learn 실습 능력을 요구합니다.
▸즉 이 페이지의 지도/비지도 개념이 곧 USAAIO 시험 단위입니다. 해외 거주 한국 학생이 많이 응시합니다.

IOAI (국제인공지능올림피아드)

KOAI 고등부 수상자를 중심으로 국가 대표를 선발합니다. 국제 무대에서는 딥러닝·강화학습까지 범위가 확장되지만, 머신러닝은 출발점입니다.

머신러닝 개념	관련 시험/영역	비고
지도학습 (분류·회귀)	KOAI 고등부·중등부 필기, USAAIO ML 영역	출제 빈도 높음
비지도학습 (군집화)	KOAI 고등부 필기, USAAIO ML 영역	개념 이해 중심
과적합·정규화	KOAI 고등부 필기	단답 문제 자주 출제
평가지표 (정확도·F1 등)	KOAI 고등부·USAAIO	실습·계산 문제
ML 프로젝트 경험	KOAI 1차 서류 (AI 포트폴리오)	GitHub 링크 포함 권장

국제인공지능올림피아드 선발·범위 자세히 보기 → | KOAI 대비 커리큘럼 보기 →

학년별 머신러닝 학습 (초등·중등·고등)

학년마다 적합한 진입점이 다릅니다. 코드보다 체험이 먼저인 초등부터, scikit-learn 실습 중심의 중등, 선형대수와 확률통계를 병행하는 고등까지 단계적으로 연결됩니다.

초등학생

체험으로 직관 쌓기

코드보다 체험 중심으로 시작합니다. Google Teachable Machine으로 이미지·소리를 코드 없이 분류해 보면, "컴퓨터가 예시를 보고 스스로 배운다"는 머신러닝의 핵심 직관을 자연스럽게 체득할 수 있습니다. 블록 코딩을 병행하면 논리적 사고도 함께 키울 수 있고, 수학·통계 부담은 없습니다.

Python으로 첫 모델

Python 기초 위에서 scikit-learn으로 첫 모델을 만들어 봅니다. 붓꽃 품종 분류나 타이타닉 생존 예측처럼 정답이 있는 데이터로 지도학습의 흐름 전체를 익히고, 정확도·정밀도 같은 평가지표까지 이해합니다. 2026/2027 기준 KOAI 중등부 필기의 머신러닝 기초 범위에 직접 대응하는 단계입니다.

지도·비지도 + 올림피아드 대응

지도학습과 비지도학습을 체계적으로 다루고, 선형대수·확률통계 기초를 병행합니다. 2026/2027 기준 KOAI 고등부 필기와 USAAIO의 'Machine Learning' 영역(supervised·unsupervised)에 대응하는 본격 단계입니다. 프로젝트를 GitHub에 올리면 KOAI 1차 서류의 AI 포트폴리오로 바로 연결되고, 한국 대입에서는 교과 세특·탐구활동·면접의 근거로, 영재학교·과학고·SW 특성화고 입시에서는 자기주도 탐구 경험으로 쌓입니다.

꼭 알아야 할 핵심 개념

교과서 용어처럼 느껴지지만, 실제로 코드를 짤 때 매번 마주칩니다. 각각 어떤 상황에서 쓰는지 기억해 두면 책이나 강의가 훨씬 빨리 이해됩니다.

특성(feature)과 라벨(label)

특성은 모델에 넣는 입력 변수입니다. 집값 예측이라면 면적·층수·지역이 특성입니다. 라벨은 예측하려는 정답 값으로, 집값 예측에서는 실제 가격이 라벨입니다. 좋은 특성을 고르는 작업을 특성 공학(feature engineering)이라고 합니다.

학습 데이터 · 검증 데이터 · 테스트 데이터

전체 데이터를 세 묶음으로 나눕니다. 학습 데이터(train)로 모델을 훈련하고, 검증 데이터(validation)로 하이퍼파라미터를 조정하며, 테스트 데이터(test)로 최종 성능을 한 번만 확인합니다. 테스트 데이터는 학습 과정에서 절대 들여다보지 않아야 신뢰할 수 있는 평가가 됩니다.

과적합(overfitting)과 과소적합(underfitting)

과적합은 모델이 학습 데이터에 너무 꼭 맞아, 새로운 데이터에서는 틀리는 현상입니다. 시험 답을 달달 외우는 것과 비슷합니다. 과소적합은 반대로 너무 단순해서 학습 데이터조차 제대로 맞추지 못하는 경우입니다. 모델 복잡도와 데이터 양을 균형 있게 맞추는 것이 핵심입니다.

평가지표: 정확도 · 정밀도 · 재현율

정확도(accuracy)는 전체 예측 중 맞춘 비율입니다. 그런데 스팸 탐지처럼 데이터가 불균형할 때는 정밀도(precision, 스팸이라고 했을 때 실제 스팸인 비율)와 재현율(recall, 실제 스팸을 얼마나 잡아냈는지)을 같이 봐야 합니다. 어떤 지표가 중요한지는 문제에 따라 다릅니다.

학생이 처음 만들 수 있는 머신러닝 모델 - 올림피아드 포트폴리오 첫걸음

아래 세 가지 모두 Google Colab 브라우저에서 별도 설치 없이 바로 시작할 수 있습니다. Python · NumPy · pandas · scikit-learn이 기본 스택이며, Colab에 이미 설치되어 있습니다. 각 프로젝트는 KOAI 1차 서류의 AI 포트폴리오로 이어지는 첫 모델이기도 합니다.

1

붓꽃(iris) 품종 분류 - scikit-learn

머신러닝 입문의 정석 예제입니다. 꽃잎 길이 등 4개의 특성으로 3가지 붓꽃 품종을 분류합니다. scikit-learn의 KNeighborsClassifier나 DecisionTreeClassifier로 10줄 내외의 코드로 완성할 수 있습니다. 특성, 라벨, train/test 분리, 정확도 측정의 흐름 전체를 한 번에 익힙니다. KOAI·USAAIO 필기에서 자주 묻는 지도학습 분류 개념을 코드로 직접 확인하는 데 좋습니다.

2

타이타닉 생존 예측 - Kaggle

Kaggle에서 제공하는 타이타닉 데이터셋으로, 승객 나이·성별·좌석 등급 같은 특성을 이용해 생존 여부를 예측합니다. 결측값 처리, 카테고리 변수 인코딩, 모델 학습과 제출까지 실제 데이터 분석 과정을 경험할 수 있습니다. Kaggle Learn의 Introduction to ML 과정과 함께 풀기 좋습니다. 완성한 노트북을 GitHub에 올리면 KOAI 1차 서류 AI 포트폴리오의 첫 항목이 됩니다.

3

이미지 분류 - Google Teachable Machine

코딩 없이 브라우저에서 웹캠으로 직접 사진을 찍어 이미지 분류 모델을 만들 수 있는 도구입니다. "가위·바위·보" 같은 간단한 분류기를 10분 안에 완성할 수 있습니다. 머신러닝이 어떻게 작동하는지 직관적으로 이해하는 데 좋고, 만든 모델을 웹 페이지에 바로 연결할 수도 있습니다. 올림피아드 준비 초기에 직관을 키우는 첫 실습으로 추천합니다.

학생이 무료로 시작할 수 있는 도구 (2026년 기준)

아래 자료는 모두 무료로 접근 가능하며, 별도 가입 없이 바로 쓸 수 있습니다.

검증된 무료 학습 자료

Google 머신러닝 단기집중과정 - 한국어로 제공되는 구글의 공식 입문 강의입니다. 개념 설명과 실습 문제가 잘 구성되어 있고, 선형 회귀부터 신경망까지 다룹니다.
developers.google.com/machine-learning/crash-course
Kaggle Learn - 브라우저에서 바로 실습할 수 있는 짧은 과정들로 구성되어 있습니다. Python 기초부터 머신러닝, 딥러닝, 자연어처리까지 단계별로 연결됩니다.
kaggle.com/learn
scikit-learn 공식 튜토리얼 - 머신러닝 알고리즘 거의 모두를 Python으로 구현한 라이브러리의 공식 문서입니다. 예제 코드가 풍부하고 한 번 익혀 두면 다른 자료를 읽을 때 큰 도움이 됩니다.
scikit-learn.org
Google Colab - 브라우저에서 Python 코드를 바로 실행할 수 있는 무료 환경입니다. GPU도 무료로 사용할 수 있어 딥러닝 실습에도 활용됩니다. 설치 없이 바로 시작할 수 있습니다.
colab.research.google.com

머신러닝 학습 순서

머신러닝은 시작이지 끝이 아닙니다. 아래 순서대로 따라가면 AI 전체 로드맵과 자연스럽게 연결됩니다.

1

Python 기초와 데이터 다루기

변수·반복문·함수 같은 기초 문법, NumPy·pandas로 표 데이터 다루기. Google 머신러닝 단기집중과정과 Kaggle Learn이 좋은 출발점입니다.

2

머신러닝 개념과 첫 모델 (지금 이 페이지)

지도·비지도·강화학습의 차이, 과적합, 평가지표를 이해하고 scikit-learn으로 붓꽃 분류, 타이타닉 예측 같은 첫 모델을 만들어 봅니다.

3

딥러닝으로 확장 - 다음 단계

인공신경망의 원리, PyTorch로 직접 쌓아 보기, CNN·트랜스포머까지. 딥러닝이란 가이드에서 이어집니다.

4

AI 프로젝트 완성

관심 분야의 문제로 작은 AI 프로젝트를 끝까지 완성하고 GitHub에 올립니다. AI 프로젝트 만들기 가이드에서 주제 선정부터 문서화까지 안내합니다.

5

검증된 자료로 깊이 더하기

Kaggle·PyTorch·CS231n 같은 검증된 자료를 수준별로 정리한 AI 공부 자료 로드맵을 참고하세요.

CIT의 머신러닝 1:1 지도

위 자료들은 훌륭하지만, 영어 강의를 끝까지 따라가거나 어디서 막혔는지 스스로 진단하기는 쉽지 않습니다. CIT는 학생의 현재 수준을 먼저 진단하고, 학년·목표(입시 포트폴리오 또는 올림피아드)에 맞춘 맞춤 로드맵으로 1:1 지도합니다.

🗺️

수준 진단 후 맞춤 로드맵

처음 상담에서 현재 수준을 파악하고, 목표까지의 경로를 함께 설계합니다.

🖥️

압구정 오프라인 + 온라인 동일 커리큘럼

서울 강남 압구정 오프라인 수업과 동일한 내용으로 온라인 1:1 세션을 운영합니다.

🌏

해외 거주 한국 학생도 가능

미국·캐나다·유럽 등 해외에 거주하는 한국 학생도 동일한 수준으로 참여할 수 있습니다.

카카오톡 상담 02-540-2922

자주 묻는 질문

머신러닝이란 무엇인가요?

머신러닝은 사람이 규칙을 직접 코딩하는 대신, 예시 데이터를 보여 주면 컴퓨터가 스스로 패턴을 찾아 예측하거나 분류하는 기술입니다. 이메일 스팸 필터, 유튜브 추천 알고리즘, 의료 영상 판독 등 이미 우리 생활 곳곳에 쓰이고 있습니다. 딥러닝은 머신러닝의 한 갈래로, 인공신경망을 여러 층으로 쌓아 복잡한 패턴을 학습하는 방법입니다.

KOAI를 준비하려면 머신러닝을 어디까지 알아야 하나요?

2026/2027 기준 KOAI 고등부 2차 필기(약 6시간)는 머신러닝·딥러닝이 핵심 출제 범위입니다. 최소한 지도학습(분류·회귀)·비지도학습(군집화)의 원리, 과적합과 정규화 개념, 정확도·정밀도·재현율 같은 평가지표를 이해해야 합니다. Python·scikit-learn으로 직접 모델을 구현해 본 경험이 있으면 단답 문제에서 유리하며, KOAI 1차 서류에 AI 포트폴리오를 제출할 때도 실습 경험이 뒷받침됩니다.

지도학습, 비지도학습, 강화학습의 차이가 무엇인가요?

지도학습(supervised learning)은 입력과 정답 쌍을 주고 학습시키는 방법으로, 스팸 분류나 집값 예측에 씁니다. 비지도학습(unsupervised learning)은 정답 없이 데이터 안의 패턴이나 군집을 찾는 방법으로, 고객 세분화에 씁니다. 강화학습(reinforcement learning)은 환경에서 행동을 해 보고 보상을 받으며 점점 나은 전략을 찾는 방법으로, 게임 AI나 로봇 제어에 씁니다.

과적합(overfitting)이 왜 문제인가요?

과적합은 모델이 학습 데이터에는 아주 잘 맞지만, 새로운 데이터에서는 엉뚱한 결과를 내는 현상입니다. 마치 시험 문제를 달달 외워 풀면 같은 문제엔 점수가 높지만 응용 문제는 못 푸는 것과 같습니다. 검증 데이터와 테스트 데이터를 따로 두고 모델 성능을 확인해야 과적합을 발견하고 막을 수 있습니다.

중학생이 KOAI 중등부를 위해 머신러닝을 배워도 되나요?

충분히 가능합니다. KOAI 중등부 필기는 고등부보다 이론 비중이 높지만, 지도·비지도학습의 개념과 Python 기초를 갖추면 도전할 수 있는 수준입니다. Google Teachable Machine처럼 코딩 없이 모델을 만드는 도구부터 시작해 scikit-learn으로 넘어가는 2단계 접근을 권장합니다. 중학교 수학(함수·통계 기초)만으로도 머신러닝 개념을 이해하는 데 무리가 없으며, 실제로 CIT에서는 중학생이 머신러닝 프로젝트로 KOAI 1차 서류를 준비하는 경우가 있습니다.

USAAIO 출제 범위에서 머신러닝의 비중은?

USAAIO 공개 실러버스는 수학 기초(선형대수·확률통계), Python·scikit-learn, 그리고 머신러닝(지도·비지도학습)을 핵심 영역으로 명시합니다. 비율은 공식 발표되지 않지만, 지도학습(분류·회귀 알고리즘의 원리와 구현)이 가장 큰 비중을 차지하는 것으로 알려져 있습니다. 딥러닝은 그 다음 단계이며, 머신러닝 기초 없이 딥러닝만 공부하면 필기에서 빈틈이 생길 수 있습니다. 2026/2027 기준으로 시험 구성이 달라질 수 있으므로 USAAIO 공식 사이트를 함께 확인하는 것을 권장합니다.

머신러닝 공부에 좋은 무료 자료는 어디서 구할 수 있나요?

Google 머신러닝 단기집중과정(developers.google.com/machine-learning/crash-course)은 한국어로 제공되며 개념을 잘 정리해 줍니다. Kaggle Learn(kaggle.com/learn)은 브라우저에서 바로 실습 가능한 짧은 과정으로 이루어져 있고, scikit-learn 공식 튜토리얼(scikit-learn.org)도 예제가 풍부합니다.

머신러닝을 배운 다음에는 무엇을 공부하면 되나요?

머신러닝의 큰 그림을 잡은 다음에는 딥러닝으로 넘어가는 것이 자연스럽습니다. PyTorch로 신경망을 직접 만들고, 이미지나 텍스트 같은 비정형 데이터를 다루는 법을 배웁니다. 그리고 관심 분야의 문제로 작은 AI 프로젝트를 완성해 GitHub에 올리면 포트폴리오가 됩니다.

상담 안내

우리 아이 수준에서 머신러닝을 어떻게 시작해야 할지 궁금하신가요? 현재 수준과 목표에 맞는 공부 순서를 무료 상담에서 안내해 드립니다.

카카오톡 상담 02-540-2922

머신러닝이란
무엇인가

머신러닝과 전통 프로그래밍의 차이

머신러닝의 3가지 유형

지도학습

비지도학습

강화학습

KOAI·USAAIO에서 머신러닝은 어떻게 출제되나

KOAI (한국인공지능올림피아드)

USAAIO (미국·캐나다 AI 올림피아드)

IOAI (국제인공지능올림피아드)

학년별 머신러닝 학습 (초등·중등·고등)

체험으로 직관 쌓기

Python으로 첫 모델

지도·비지도 + 올림피아드 대응

꼭 알아야 할 핵심 개념

특성(feature)과 라벨(label)

학습 데이터 · 검증 데이터 · 테스트 데이터

과적합(overfitting)과 과소적합(underfitting)

평가지표: 정확도 · 정밀도 · 재현율

학생이 처음 만들 수 있는 머신러닝 모델 - 올림피아드 포트폴리오 첫걸음

붓꽃(iris) 품종 분류 - scikit-learn

타이타닉 생존 예측 - Kaggle

이미지 분류 - Google Teachable Machine

학생이 무료로 시작할 수 있는 도구 (2026년 기준)

머신러닝 학습 순서

CIT의 머신러닝 1:1 지도

수준 진단 후 맞춤 로드맵

압구정 오프라인 + 온라인 동일 커리큘럼

해외 거주 한국 학생도 가능

자주 묻는 질문

상담 안내

관련 페이지

참고 자료