KOAI 4과목(자연어 처리 및 오디오) 전 범위를 실전으로 숙달합니다. BERT·인코더-디코더·LLM API·Whisper까지 다루며, 텍스트와 오디오 데이터에 대한 end-to-end 파이프라인을 직접 구성할 수 있는 수준에 도달합니다. 고등부 응시자를 위한 자연어·오디오 심화 코스입니다.
게시일: 2026년 5월 16일 | 최종 수정: 2026년 5월 16일 · KOAI 2026 요강 기준
트랙
심화 (Advanced)
고등부 응시자
대상 학년
고등부
F1·F2 이수
권장 수업 시간
약 10시간
1:1 기준 · 6~14시간 변동
KOAI 매핑
4과목 전 범위
실라버스 4-1 ~ 4-2
A2를 마치면 학생은 KOAI 4과목(자연어 처리 및 오디오) 전 범위를 실전 수준으로 숙달합니다. 토큰화와 어휘 구축에서 출발해 BERT·인코더-디코더 모델, 언어 모델링, LLM API 활용, Whisper 기반 음성 인식까지 다루며, 텍스트와 오디오 데이터에 대한 end-to-end 파이프라인을 처음부터 끝까지 직접 구성할 수 있는 수준에 도달하는 것이 목표입니다.
A2는 F1·F2에서 다진 머신러닝·딥러닝 토대 위에 자연어 처리와 오디오 처리를 쌓는 고등부 응시자 전용 심화 코스입니다. 특히 한국어 NLP의 특수성을 별도로 다뤄, 한국어 데이터로 진행한 캡스톤은 자기소개서의 차별화 소재로 직접 연결됩니다.
아래는 1:1 기준 표준 진행안입니다. 학생의 사전 지식과 흡수 속도에 따라 일부 주차를 가속·압축하거나 더 깊게 다룹니다. 핵심 도구: Hugging Face Transformers, PyTorch, BERT, mT5/MarianMT, KoBERT/KLUE, Llama/Qwen, Anthropic/OpenAI API, Whisper, HuBERT.
| 주차 | 주제 | 핵심 산출물 |
|---|---|---|
| 1 | 텍스트 분류 + 토큰화·어휘 구축 | TF-IDF + 신경망 baseline |
| 2 | 사전학습 텍스트 인코더 BERT (이론+실전) | BERT 파인튜닝 (감정 분석) |
| 3 | 언어 모델링 (이론+실전), causal vs masked | 토큰 단위 LM 학습 |
| 4 | 인코더-디코더 모델 (기계번역, 요약) | mT5·MarianMT 파인튜닝 |
| 5 | 한국어 NLP 특수성 (형태소, 한국어 토크나이저) | KoBERT·KLUE 활용 |
| 6 | 오픈소스 LLM 사용 (Llama, Qwen) | 로컬 추론 + LoRA |
| 7 | LLM API 활용 (Anthropic, OpenAI) — 프롬프트 엔지니어링 | RAG mini system |
| 8 | 오디오 데이터 처리 + HuBERT | 오디오 분류 |
| 9 | Whisper, Qwen-Audio, Voxtral | 음성 인식 + 다국어 |
| 10 | 캡스톤: NLP 또는 오디오 응용 프로젝트 | repo + 데모 |
※ 주차는 콘텐츠 단위이며 실제 소요 시간은 학생별로 다릅니다. 권장 약 10시간, 변동 범위 6~14시간.
매주 Jupyter 노트북을 작성합니다. 토큰화·BERT 파인튜닝·LLM API·음성 인식까지 각 주제를 코드로 구현해 누적 자산으로 남깁니다. 영문 노트북에 한국어 핵심 용어 주석을 병기 — KOAI 2차 한국어 서술형도 동시에 대비합니다.
한국어 또는 영어 텍스트/오디오 응용 프로젝트 1편을 완성합니다. NLP 또는 오디오 중 하나를 선택해 end-to-end로 구현하고, repo와 데모로 정리해 포트폴리오 자산으로 남깁니다.
A2는 GitHub repo 1개 koai-nlp-audio를 누적 자산으로 남깁니다. 한국어 데이터로 진행한 캡스톤은 자기소개서 문항 2의 "현지화된 AI 경험" 소재로 직접 활용됩니다.
GitHub
정리된 repo 1개 koai-nlp-audio
한국어 NLP
KoBERT/KLUE 산출물
자기소개서
문항 2 "현지화된 AI 경험"
이 이력은 KOAI 1차 서류의 포트폴리오 40% · AI 역량 30% 항목에 누적 증빙으로 작용합니다. 일찍 시작할수록 응시 시점의 깊이가 깊어집니다.
A2는 KOAI 커리큘럼 심화 트랙의 코스입니다. 전체 트랙 구조는 KOAI 대비 커리큘럼 허브에서 확인하세요.
현재 코스
A2. 심화 II — NLP & Audio
자연어 처리 & 오디오
F1·F2 이수가 필요합니다. A1과 병행 가능하며 고등부 응시 예정자에게 권장합니다.
KOAI 실라버스 4과목(자연어 처리 및 오디오) 전 범위(4-1~4-2)에 매핑됩니다. 토큰화·BERT·LLM API·RAG·Whisper까지 다룹니다.
네. 5주차에 형태소·한국어 토크나이저·KoBERT·KLUE를 다룹니다. 한국어 데이터 캡스톤은 자기소개서 "현지화된 AI 경험" 소재로 활용됩니다.
7주차에 Anthropic·OpenAI API와 프롬프트 엔지니어링으로 RAG mini system을 직접 구성합니다.
C1 Portfolio Studio → C2 Mock Bootcamp → C3 Selection Camp로 이어집니다. 정확한 일정은 KOAI 대회 안내(https://citcoding.com/competitions/koai.html)를 확인하세요.