Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation.

AllImages Videos Books Maps News Shopping

[2406.10082] Whisper-Flamingo: Integrating Visual Features into ...

Jun 14, 2024 � We propose Whisper-Flamingo which integrates visual features into the Whisper speech recognition and translation model with gated cross attention.

roudimit/whisper-flamingo - GitHub

github.com › roudimit › whisper-flamingo

We propose Whisper-Flamingo which integrates visual features into the Whisper speech recognition and translation model with gated cross attention. Our audio-�...

[PDF] Whisper-Flamingo: Integrating Visual Features into Whisper ... - arXiv

arxiv.org › pdf

In this work, we propose to integrate visual features from AV-HuBERT into Whisper [1], an audio-only model trained on 680k hours of speech with a strong�...

[Interspeech 2024] Whisper-Flamingo: Integrating Visual ... - YouTube

www.youtube.com › watch

Jun 15, 2024 � [Interspeech 2024] Whisper-Flamingo: Integrating Visual Features into Whisper � Comments.
Duration: 10:04
Posted: Jun 15, 2024

Integrating Visual Features into Whisper for Audio-Visual Speech ...

www.researchgate.net › publication › 381471221_Whisper-Flamingo_Inte...

Our audio-visual Whisper-Flamingo outperforms audio-only Whisper on English speech recognition and En-X translation for 6 languages in noisy conditions.

Introducing Whisper-Flamingo, an audio-visual speech recognition ...

github.com › openai › whisper › discussions

We convert Whisper into an audio-visual speech recognition model so that it can use both audio and lip-based video as input.

Missing: Integrating | Show results with:Integrating

Integrating Visual Features into Whisper for Audio-Visual Speech ...

www.researchgate.net › ... › Computer Science › Speech Recognition

Sep 4, 2024 � Our audio-visual Whisper-Flamingo outperforms audio-only Whisper on English speech recognition and En-X translation for 6 languages in noisy�...

Whisper-Flamingo: Integrating Visual Features into ... - AIModels.fyi

www.aimodels.fyi › papers › arxiv › whisper-flamingo-integrating-visual-f...

Jun 16, 2024 � Whisper-Flamingo is a new artificial intelligence (AI) model that combines visual information with audio data to improve speech recognition and translation.

Samuel Thomas - CatalyzeX

www.catalyzex.com › author

Our audio-visual Whisper-Flamingo outperforms audio-only Whisper on English speech recognition and En-X translation for 6 languages in noisy conditions.

Audio-Visual Speech Recognition | Papers With Code

paperswithcode.com › task › audio-visual-speech-recognition › latest

The enhanced audio features are fused with the visual features and taken to an encoder-decoder model composed of Conformer and Transformer for speech�...