dtw-speech-aligner

A Python tool for speech segment alignment using Dynamic Time Warping (DTW). Assumes input audio has been pre‑processed by VAD (voice activity detection).

Features

Subsequence DTW alignment of two speech segments (query vs. reference)
Supports MFCC and/or fundamental‑frequency (F0) features
Outputs clipped reference audio and optional diagnostic plots

Usage

python main.py \
  --query_path   path/to/query_audio \
  --reference_path path/to/reference_audio \
  [--feat_types mfcc f0] \
  [--save_plot]

query_path: path to the (pre‑VAD) query audio.
reference_path: path to the (pre‑VAD) reference audio.
feat_types: which features to use: mfcc, f0 (default: mfcc).
save_plot: save DTW & spectrogram plots.

Examples

Chinese

Audio

Query (TTS): query_chinese.wav

Reference (Human): reference_chinese.wav

Clipped segment (DTW): clip_chinese.wav

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

English

Audio

Query (TTS): query_english.wav

Reference (Human): reference_english.wav

Clipped segment (DTW): clip_english.wav

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

Taiwanese

Audio

Query (TTS): query_taiwanese.wav

Reference (Human): reference_taiwanese.mp3

Clipped segment (DTW): clip_taiwanese.wav

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
audio		audio
png		png
LICENSE		LICENSE
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

dtw-speech-aligner

Features

Usage

Examples

Chinese

Audio

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

English

Audio

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

Taiwanese

Audio

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

License

SXKA/dtw-speech-aligner

Folders and files

Latest commit

History

Repository files navigation

dtw-speech-aligner

Features

Usage

Examples

Chinese

Audio

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

English

Audio

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

Taiwanese

Audio

Visualization

Alignment

Mel-spectrogram & f0

MFCC DTW paths

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages