Unit-based Audiovisual Translation for Korean
Text-free Direct Speech Translation with Synchronized Lip Movement
NetfLips는 영어 영상을 입력받아 음성과 입 모양이 동기화된 한국어 번역 영상을 생성하는 프로젝트입니다.
- 🎯 Unit-based Translation: 텍스트 중간 표현 없이 음성과 시각 정보를 공통 유닛(Unit) 표현으로 직접 모델링
- 🔊 Speech & Visual Sync: 음성과 비디오를 공통 특징 공간의 Unit 단위로 정렬하여 강건한 번역 구현
- 🇰🇷 Korean Fine-tuning: 기존에 지원되지 않던 한국어 capability를 위한 Fine-tuning
- 💬 Natural Synthesis: 자연스러운 음성 합성 및 립싱크 생성
#Unit-based Audiovisual Translation #Text-free Direct Speech Translation #Lip Sync #Speech Translation
NetfLips는 3단계 파이프라인으로 구성됩니다:
- FLAC 복원 (wav)
- 특징 추출 (Mel Spectrogram)
- K-means 분류
- 정수 sequence로 변환
- Base Model: AV2AV (Choi, J., et al., 2024)
- Translation: 영어 unit → 한국어 unit
- Framework: Fairseq toolkit 기반 unit sequence 학습
- Backbone: 대규모 사전 학습 모델 mBART 활용
- Unit → Audio 변환
- 한국어 unit & 화자 임베딩 활용
- Speech Resynthesis
본 프로젝트는 다음 데이터셋을 활용하여 학습되었습니다:
| Dataset | Description | Size |
|---|---|---|
| Zeroth Korean ASR | 한국어 음성 인식 데이터 | 12,245 문장 |
| AIHub Ko-X 통번역 음성 | 한국어-영어(미국) 병렬 음성 데이터 | 169,488 문장 |
# 필요한 패키지 및 환경 설정 (추후 업데이트)# 설치 방법 (추후 업데이트)# 사용 예제 코드 (추후 업데이트)# 커맨드라인 사용법 (추후 업데이트)NetfLips/
├── # 추후 업데이트
├──
├──
├──
├──
├──
└── README.md
- FLAC 파일 복원 및 wav 변환
- Mel Spectrogram 기반 특징 추출
- K-means 클러스터링을 통한 Unit 분류
- mBART 기반 sequence-to-sequence 학습
- Fairseq toolkit 활용
- Unit-to-Unit translation 최적화
- 한국어 unit에서 음성 재합성
- 화자 임베딩을 활용한 자연스러운 음성 생성
- 립싱크가 동기화된 비디오 생성
- AV2AV: Audio-Visual to Audio-Visual translation model
- Reference: Choi, J., et al., 2024
- 한국어 미지원 문제 해결을 위한 Fine-tuning
- 병렬 한-영 음성 데이터 활용
- Unit-level translation 학습
| Name | batch |
|---|---|
| 장지수 | 6th |
| 유지혜 | 6th |
| 신규철 | 8th |
| 이가연 | 8th |
@misc{netflips2024,
title={NetfLips: Unit-based Audiovisual Translation for Korean},
author={장지수, 유지혜, 신규철, 이가연},
year={2024}
}- Choi, J., et al. (2024). AV2AV: Audio-Visual to Audio-Visual Translation
이 프로젝트는 MIT 라이선스 하에 배포됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.
This repository is built upon AV2AV and Fairseq. We appreciate the open-source of the projects.