ConvTasNet

class torchaudio.models.ConvTasNet(num_sources: int = 2, enc_kernel_size: int = 16, enc_num_feats: int = 512, msk_kernel_size: int = 3, msk_num_feats: int = 128, msk_num_hidden_feats: int = 512, msk_num_layers: int = 8, msk_num_stacks: int = 3, msk_activate: str = 'sigmoid')[source]

Conv-TasNet architecture introduced in Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo and Mesgarani, 2019].

Note

This implementation corresponds to the “non-causal” setting in the paper.

forward

ConvTasNet.forward(input: Tensor) → Tensor[source]

Perform source separation. Generate audio source waveforms.

Parameters:: input (torch.Tensor) – 3D Tensor with shape [batch, channel==1, frames]
Returns:: 3D Tensor with shape [batch, channel==num_sources, frames]
Return type:: Tensor

ConvTasNet

forward

Docs

Tutorials

Resources