🎬 NetfLips

Unit-based Audiovisual Translation for Korean
Text-free Direct Speech Translation with Synchronized Lip Movement

📋 Overview

NetfLips는 영어 영상을 입력받아 음성과 입 모양이 동기화된 한국어 번역 영상을 생성하는 프로젝트입니다.

✨ Key Features

🎯 Unit-based Translation: 텍스트 중간 표현 없이 음성과 시각 정보를 공통 유닛(Unit) 표현으로 직접 모델링
🔊 Speech & Visual Sync: 음성과 비디오를 공통 특징 공간의 Unit 단위로 정렬하여 강건한 번역 구현
🇰🇷 Korean Fine-tuning: 기존에 지원되지 않던 한국어 capability를 위한 Fine-tuning
💬 Natural Synthesis: 자연스러운 음성 합성 및 립싱크 생성

🎯 Keywords

#Unit-based Audiovisual Translation #Text-free Direct Speech Translation #Lip Sync #Speech Translation

🎥 Demo

🌐 Demo Link

🏗️ Architecture

NetfLips는 3단계 파이프라인으로 구성됩니다:

1️⃣ Unit Extraction

FLAC 복원 (wav)
특징 추출 (Mel Spectrogram)
K-means 분류
정수 sequence로 변환

2️⃣ Unit Translation

Base Model: AV2AV (Choi, J., et al., 2024)
Translation: 영어 unit → 한국어 unit
Framework: Fairseq toolkit 기반 unit sequence 학습
Backbone: 대규모 사전 학습 모델 mBART 활용

3️⃣ AV Generation

Unit → Audio 변환
한국어 unit & 화자 임베딩 활용
Speech Resynthesis

📊 Dataset

본 프로젝트는 다음 데이터셋을 활용하여 학습되었습니다:

Dataset	Description	Size
Zeroth Korean ASR	한국어 음성 인식 데이터	12,245 문장
AIHub Ko-X 통번역 음성	한국어-영어(미국) 병렬 음성 데이터	169,488 문장

🚀 Getting Started

Prerequisites

# 필요한 패키지 및 환경 설정 (추후 업데이트)

Installation

# 설치 방법 (추후 업데이트)

💻 Usage

Quick Start

# 사용 예제 코드 (추후 업데이트)

Advanced Usage

# 커맨드라인 사용법 (추후 업데이트)

📁 Project Structure

NetfLips/
├── # 추후 업데이트
├── 
├── 
├── 
├── 
├── 
└── README.md

🔬 Methodology

Data Preprocessing

FLAC 파일 복원 및 wav 변환
Mel Spectrogram 기반 특징 추출
K-means 클러스터링을 통한 Unit 분류

Model Training

mBART 기반 sequence-to-sequence 학습
Fairseq toolkit 활용
Unit-to-Unit translation 최적화

Audio-Visual Generation

한국어 unit에서 음성 재합성
화자 임베딩을 활용한 자연스러운 음성 생성
립싱크가 동기화된 비디오 생성

🛠️ Technical Details

Base Model

AV2AV: Audio-Visual to Audio-Visual translation model
Reference: Choi, J., et al., 2024

Fine-tuning Strategy

한국어 미지원 문제 해결을 위한 Fine-tuning
병렬 한-영 음성 데이터 활용
Unit-level translation 학습

👥 Team Members From Prometheus(AI club)

Name	batch
장지수	6th
유지혜	6th
신규철	8th
이가연	8th

📝 Citation

@misc{netflips2024,
  title={NetfLips: Unit-based Audiovisual Translation for Korean},
  author={장지수, 유지혜, 신규철, 이가연},
  year={2024}
}

References

Choi, J., et al. (2024). AV2AV: Audio-Visual to Audio-Visual Translation

License

이 프로젝트는 MIT 라이선스 하에 배포됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.

Acknowledgments

This repository is built upon AV2AV and Fairseq. We appreciate the open-source of the projects.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
preparation		preparation
unit2unit		unit2unit
LICENSE		LICENSE
README.md		README.md

License

Prometheus-AI-3team/NetfLips

Folders and files

Latest commit

History

Repository files navigation

🎬 NetfLips

📋 Overview

✨ Key Features

🎯 Keywords

🎥 Demo

🌐 Demo Link

🏗️ Architecture

1️⃣ Unit Extraction

2️⃣ Unit Translation

3️⃣ AV Generation

📊 Dataset

🚀 Getting Started

Prerequisites

Installation

💻 Usage

Quick Start

Advanced Usage

📁 Project Structure

🔬 Methodology

Data Preprocessing

Model Training

Audio-Visual Generation

🛠️ Technical Details

Base Model

Fine-tuning Strategy

👥 Team Members From Prometheus(AI club)

📝 Citation

References

License

Acknowledgments

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages