ConvTasNet¶

class torchaudio.models.ConvTasNet(num_sources: int = 2, enc_kernel_size: int = 16, enc_num_feats: int = 512, msk_kernel_size: int = 3, msk_num_feats: int = 128, msk_num_hidden_feats: int = 512, msk_num_layers: int = 8, msk_num_stacks: int = 3, msk_activate: str = 'sigmoid')[source]¶

Conv-TasNet architecture introduced in Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation [Luo and Mesgarani, 2019].

Note

This implementation corresponds to the “non-causal” setting in the paper.

Methods¶

forward¶

ConvTasNet.forward(input: Tensor) → Tensor[source]¶

Perform source separation. Generate audio source waveforms.

Parameters:: input (torch.Tensor) – 3D Tensor with shape [batch, channel==1, frames]
Returns:: 3D Tensor with shape [batch, channel==num_sources, frames]
Return type:: Tensor

Factory Functions¶

conv_tasnet_base

Builds non-causal version of ConvTasNet.

ConvTasNet¶

Methods¶

forward¶

Factory Functions¶

Docs

Tutorials

Resources